このコースで使用されているソースと、役立つ評価ツールの一覧(すべてを網羅しているわけではありません)。
テストと AI に関するその他のリソースについては、以下のリソースをご覧ください。
- テストを学ぶ: テストのアプローチを再確認します。
- AI を学ぶ: ウェブサイトとウェブ アプリケーション向けの AI システムを設計します。
- Google DeepMind Evals: さまざまなタイプのモデルに対応する複数の標準化されたベンチマーク ツール
- Gemini 評価ハンドブック: Vertex AI を使用して生成 AI モデルをテストおよび評価するためのレシピ。
- 責任ある AI ツールキット: モデルとシステムの安全性を評価します。
- 評価の評価: どの評価を使用すべきか、何が効果的かを理解する方法に関するメタレッスン。
- より優れた AI ベンチマークの構築: 評価者は何人いれば十分か?再現可能な AI ベンチマークを構築するために、アイテム数とアイテムあたりの評価者の間のトレードオフを最適化する ML モデルの評価フレームワークを理解します。
コースのソース
このシリーズの作成にあたっては、以下の複数のソースを参照しました。
- AI Engineering: Building Applications with Foundation Models(AI エンジニアリング: 基盤モデルを使用したアプリケーションの構築)、Chip Huyen
- LLM を活用したアプリケーションの QA のリスクを軽減する(Chrome DevTools の Michael Hablich 氏)
- Hamel Husain 著の Using LLM-as-a-Judge For Evaluation: A Complete Guide
評価ツール
評価ソリューションとツールの例は次のとおりです。
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Gen AI Evaluation Service と API
- 評価を検査する
- JudgeLM
- LangSmith
- 評価ハーネス
- OpenEvals
他にも多くの評価ツールを利用できます。他のツールを使用している場合は、Google に共有してください。