AI 評価に関するコースはこれで完了です。既存のウェブ テストの知識を LLM の世界にマッピングし、ルールベースの単体テストを作成し、ジャッジモデルを構築してテストし、テスト パイプラインを接続しました。
業界では、バイブスと LLM の非決定論が懸念されています。実際には、ブラウザ、デバイス、画面サイズを問わず完璧に動作する必要があるウェブアプリを構築したことがあるなら、この準備はできています。1 つの入力が複数の動作につながる、完全に制御できない環境、そして悪名高い「私のマシンでは動作する」という問題。
ソリューションはテスト中です。評価はまさに AI 機能のテストです。ウェブテストは、さまざまなブラウザ環境で自信を持ってリリースするために役立ちますが、評価は AI 機能で同じ役割を果たします。評価を構築して、発送しましょう。
始める前に、次の重要な質問について考えてみましょう。 出力が「悪い」とはどういうことか?障害ケースを定義します。データを深く理解し、ドメイン エキスパートと緊密に連携します。「良い」出力と「理想的な」出力の違いは何ですか?モデルに採点を依頼する前に、期待値を明確に定義します。評価はどのくらいの頻度で実施しますか?評価主導の開発は、アプリケーションのデプロイ後に評価を行う頻度を想定するアプローチです。
AI の分野は急速に進化しており、完全なパイプラインの構築は困難に感じられることがあります。小規模から始める: 1 つのルールベースのテストを作成し、1 つの基本的な LLM ジャッジを構築します。ベースラインを確立すると、推測を止めて、エンジニアとしての力を取り戻すことができます。楽しい内部プロトタイプから、テスト、測定、自信を持ってリリースできる堅牢な機能へと移行します。人間が作成した評価は、人間の欠点の影響を受けることを忘れないでください。バイアスは組み込まれています。バイアスに対処するために、モデルと評価の定期的な監査をデプロイします。
このコースに沿って最初のテストを作成し、コンパニオン コードを確認して、テストを開始します。学んだことを共有する: 評価はどのように実施していますか?@ChromiumDev までお問い合わせいただくか、BlueSky で共有していただくか、Web.dev AI チームとの個別オフィスアワーを設定してください。