這門課程和評估工具中使用的部分來源清單。
如需測試和 AI 的相關資源,建議參閱下列資源。
- 學習測試:更新測試方法。
- 學習 AI:為網站和網頁應用程式設計 AI 系統。
- Google DeepMind Evals: 多種標準化基準化工具,適用於不同類型的模型
- Gemini 評估教戰手冊: 提供使用 Vertex AI 實驗及評估生成式 AI 模型的配方。
- 負責任的 AI 技術工具包: 評估模型和系統的安全性。
- 評估評估結果:瞭解要使用哪些評估結果,以及哪些評估結果有效。
- 打造更優質的 AI 基準:需要多少評估人員才足夠? 瞭解機器學習模型的評估框架,在每個項目的項目數和資料標註者之間取得最佳平衡,以建構可重現的 AI 基準。
課程來源
撰寫本系列文章時,我們參考了多項來源,包括:
- AI 工程:使用基礎模型建構應用程式,Chip Huyen
- De-risking QA for LLM-powered applications,作者:Michael Hablich,Chrome 開發人員工具
- Using LLM-as-a-Judge For Evaluation: A Complete Guide (使用 LLM 做為評估法官:完整指南),作者為 Hamel Husain
評估工具
評估解決方案和工具的例子包括:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Gen AI Evaluation Service 和 API
- 檢查評估結果
- JudgeLM
- LangSmith
- 評估架構
- OpenEvals
還有許多其他評估工具可用。如果使用其他工具,請與我們分享。