本课程中使用的来源的非详尽列表,以及可帮助您的评估工具。
来源
我们参考了多个来源来撰写本系列文章,包括:
- AI Engineering: Building Applications with Foundation Models,Chip Huyen
- De-risking QA for LLM-powered applications - Michael Hablich,Chrome 开发者工具
- Using LLM-as-a-Judge For Evaluation: A Complete Guide - Hamel Husain
评估工具
评估解决方案和工具的示例包括:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Gen AI 评估服务 和 API (由 Vertex AI 提供)
- Inspect Evals
- JudgeLM
- LangSmith
- 评估 harness
- OpenEvals
此列表并不详尽。如果您使用的是其他评估工具, 请与我们分享。