Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

来源和工具

本课程中使用的来源列表（并非详尽无遗），以及可帮助您的评估工具。

Maud Nalpas

如需获取有关测试和 AI 的更多资源，我们建议您参阅以下资源。

学习测试：更新您的测试方法。
学习 AI：为您的网站和 Web 应用设计 AI 系统。
Google DeepMind Evals：适用于不同类型模型的多种标准化基准比较工具
Gemini 评估实操指南：使用 Vertex AI 试验和评估生成式 AI 模型的配方。
Responsible AI 工具包：评估模型和系统的安全性。
评估评估：关于如何了解要使用哪些评估以及哪些评估效果良好的元课程。
构建更优质的 AI 基准：多少评分者才足够？了解一种机器学习模型评估框架，该框架可优化商品数量与每个商品的评分者数量之间的权衡，以构建可重现的 AI 基准。

课程来源

我们在撰写本系列文章时参考了多种来源，包括：

AI Engineering: Building Applications with Foundation Models，Chip Huyen
通过 Michael Hablich（Chrome 开发者工具）了解如何降低 LLM 赋能应用的 QA 风险
Hamel Husain 撰写的 Using LLM-as-a-Judge For Evaluation: A Complete Guide

评估工具

评估解决方案和工具的示例包括：

还有许多其他评估工具可供使用。如果您使用其他工具，请与我们分享。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2026-04-16。