Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
學習內容
透過集合功能整理內容
你可以依據偏好儲存及分類內容。
瞭解本系列課程的內容,以及開始前的注意事項。
在本系列中,您會為範例應用程式 ThemeBuilder 建構評估 (eval)。內容如下:
- 建立健全的端對端評估工作流程,確保您可以將模型發布給使用者。
- 使用 LLM 做為評估者模式,測量主觀品質。建立評估人員,設定程序簡單明瞭,或使用進階技術開發自訂評估人員,讓他們像頂尖領域專家一樣思考。
- 在建構期間 (CI/CD) 和正式環境中執行評估,自動化處理管道,及早發現迴歸問題。
- 運用可提供統計信賴度的技術,證明結果並非只是從測試集隨機抽樣,並調整評估設計,以偵測隱藏的回歸。
- 使用評估結果,為您的用途選取最佳模型。
做法
這個系列影片是你的起點。您可以使用主要指南建構完整的評估管道,這些指南是以標準產業最佳做法為基礎,並在準備好提升層級時,探索更進階的技術。
無論是使用現成的評估平台或自行建構,您學到的概念和技術都與工具無關。瞭解這些指標背後的意義,有助於避開常見陷阱,並開發專業的評估管道,無論您選擇哪種堆疊都適用。
完成後,您將瞭解如何疊代提示、升級 LLM 或切換 LLM,同時放心向使用者發布。
必要條件
您應具備使用 LLM 建構內容的經驗。我們假設您已熟悉下列概念:
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2026-04-16 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["缺少我需要的資訊","missingTheInformationINeed","thumb-down"],["過於複雜/步驟過多","tooComplicatedTooManySteps","thumb-down"],["過時","outOfDate","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["示例/程式碼問題","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2026-04-16 (世界標準時間)。"],[],[]]