Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

來源和工具

這門課程和評估工具中使用的部分來源清單。

Maud Nalpas

如需測試和 AI 的相關資源，建議參閱下列資源。

學習測試：更新測試方法。
學習 AI：為網站和網頁應用程式設計 AI 系統。
Google DeepMind Evals：多種標準化基準化工具，適用於不同類型的模型
Gemini 評估教戰手冊：提供使用 Vertex AI 實驗及評估生成式 AI 模型的配方。
負責任的 AI 技術工具包：評估模型和系統的安全性。
評估評估結果：瞭解要使用哪些評估結果，以及哪些評估結果有效。
打造更優質的 AI 基準：需要多少評估人員才足夠？瞭解機器學習模型的評估框架，在每個項目的項目數和資料標註者之間取得最佳平衡，以建構可重現的 AI 基準。

課程來源

撰寫本系列文章時，我們參考了多項來源，包括：

AI 工程：使用基礎模型建構應用程式，Chip Huyen
De-risking QA for LLM-powered applications，作者：Michael Hablich，Chrome 開發人員工具
Using LLM-as-a-Judge For Evaluation: A Complete Guide (使用 LLM 做為評估法官：完整指南)，作者為 Hamel Husain

評估工具

評估解決方案和工具的例子包括：

還有許多其他評估工具可用。如果使用其他工具，請與我們分享。

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間：2026-04-16 (世界標準時間)。