Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
学习内容
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
本系列文章的预期内容,以及开始之前应了解的事项。
在本系列文章中,您将为我们的示例应用 ThemeBuilder 构建评估 (eval)。您将了解如何:
- 构建稳健的端到端评估工作流,以便您确信可以向用户发布。
- 使用 LLM 作为评判模式来衡量主观质量。通过最少的设置创建评判,或使用高级技术开发像顶级领域专家一样思考的自定义评判。
- 通过在构建时 (CI/CD) 和生产环境中运行评估来自动执行流水线,以便尽早发现回归。
- 应用可让您获得统计置信度的技术,并证明您的结果并非只是从测试池中随机抽取,并优化评估设计以发现隐蔽的回归。
- 使用评估为您的用例选择最佳模型。
方法
可以将本系列文章视为您的出发地。您只需使用主要指南即可构建完整的评估流水线,这些指南基于行业标准最佳实践,并且在您准备好升级时探索更高级的技术。
无论您是使用现成的评估平台还是自行构建,您将学习的概念和技术都与工具无关。了解其背后的原因有助于您避开常见的陷阱,并开发专家级评估流水线,无论您选择哪种技术栈。
完成后,您将知道如何在向用户发布时自信地迭代提示、升级 LLM 或切换 LLM。
前提条件
您应具有一定的 LLM 构建经验。我们假设您已熟悉以下内容:
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2026-04-16。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2026-04-16。"],[],[]]