このコースで使用されているソースと、役立つ評価ツールのリスト(すべてを網羅しているわけではありません)。
ソース
このシリーズの作成にあたっては、以下の複数のソースを参照しました。
- AI Engineering: Building Applications with Foundation Models(AI エンジニアリング: 基盤モデルを使用したアプリケーションの構築)、Chip Huyen
- LLM を活用したアプリケーションの QA のリスクを軽減する - Michael Hablich(Chrome DevTools)
- Using LLM-as-a-Judge For Evaluation: A Complete Guide - Hamel Husain
評価ツール
評価ソリューションとツールの例は次のとおりです。
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Vertex AI の Gen AI Evaluation Service と API
- 評価を検査する
- JudgeLM
- LangSmith
- 評価ハーネス
- OpenEvals
このリストはすべてを網羅したものではありません。他の評価ツールを使用している場合は、共有してください。