Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ソースとツール

このコースで使用されているソースと、役立つ評価ツールのリスト（すべてを網羅しているわけではありません）。

Maud Nalpas

テストと AI に関するその他のリソースについては、以下のリソースをご覧ください。

テストを学ぶ: テストのアプローチを再確認します。
AI を学ぶ: ウェブサイトとウェブアプリケーション向けの AI システムを設計します。
Google DeepMind Evals: さまざまなタイプのモデルに対応する複数の標準化されたベンチマークツール
Gemini 評価ハンドブック: Vertex AI を使用して生成 AI モデルをテストし、評価するためのレシピ。
責任ある AI ツールキット: モデルとシステムの安全性を評価します。
評価の評価: どの評価を使用するか、何が効果的かを理解する方法に関するメタレッスン。
より優れた AI ベンチマークの構築: 評価者は何人いれば十分か？項目数と項目あたりの評価者のトレードオフを最適化して、再現可能な AI ベンチマークを構築する ML モデルの評価フレームワークを理解します。

コースのソース

このシリーズの作成にあたっては、以下のようないくつかのソースを参照しました。

AI Engineering: Building Applications with Foundation Models（AI エンジニアリング: 基盤モデルを使用したアプリケーションの構築）、Chip Huyen
LLM を活用したアプリケーションの QA のリスクを軽減する（Chrome DevTools の Michael Hablich 氏）
Hamel Husain 著の Using LLM-as-a-Judge For Evaluation: A Complete Guide

評価ソリューションとツールの例は次のとおりです。

他にも多くの評価ツールを利用できます。他のツールを使用している場合は、Google に共有してください。