這門課程和評估工具中使用的部分來源清單。
來源
撰寫本系列文章時,我們參考了多項來源,包括:
- AI 工程:使用基礎模型建構應用程式,Chip Huyen
- De-risking QA for LLM-powered applications - Michael Hablich, Chrome DevTools
- Using LLM-as-a-Judge For Evaluation: A Complete Guide - Hamel Husain
評估工具
評估解決方案和工具的例子包括:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Vertex AI 的生成式 AI 評估服務和 API
- 檢查評估結果
- JudgeLM
- LangSmith
- 評估架構
- OpenEvals
本清單並非詳盡無遺。如果您使用其他評估工具,請與我們分享。