學習內容

瞭解本系列課程的內容,以及開始前的注意事項。

在本系列中,您會為範例應用程式 ThemeBuilder 建構評估 (eval)。內容如下:

  • 建立健全的端對端評估工作流程,確保您可以將模型發布給使用者。
  • 使用 LLM 做為評估者模式,測量主觀品質。建立評估人員,設定程序簡單明瞭,或使用進階技術開發自訂評估人員,讓他們像頂尖領域專家一樣思考。
  • 在建構期間 (CI/CD) 和正式環境中執行評估,自動化處理管道,及早發現迴歸問題。
  • 運用可提供統計信賴度的技術,證明結果並非只是從測試集隨機抽樣,並調整評估設計,以偵測隱藏的回歸。
  • 使用評估結果,為您的用途選取最佳模型。

做法

這個系列影片是你的起點。您可以使用主要指南建構完整的評估管道,這些指南是以標準產業最佳做法為基礎,並在準備好提升層級時,探索更進階的技術。

無論是使用現成的評估平台或自行建構,您學到的概念和技術都與工具無關。瞭解這些指標背後的意義,有助於避開常見陷阱,並開發專業的評估管道,無論您選擇哪種堆疊都適用。

完成後,您將瞭解如何疊代提示、升級 LLM 或切換 LLM,同時放心向使用者發布。

必要條件

您應具備使用 LLM 建構內容的經驗。我們假設您已熟悉下列概念: