Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

結語

Maud Nalpas

Alexandra Klepper

您已完成 AI 評估課程。您已將現有的網頁測試知識對應至 LLM 世界、建立以規則為基礎的單元測試、建構及測試評估模型，並設定測試管道。

我們這個產業很重視氛圍，也擔心 LLM 的非決定性。事實上，如果您曾建構網頁應用程式，且該應用程式必須在各種瀏覽器、裝置和螢幕尺寸上順暢運作，您就已做好準備。一個輸入可能會導致多種行為、您無法完全控制的環境，以及臭名昭彰的「在我的機器上運作」。

解決方案正在測試中。評估就是這類測試，可測試 AI 功能。您透過網路測試，有信心在各種瀏覽器環境中發布產品，而評估則可為 AI 功能提供同樣的保障。完成評估並提交！

開始之前，請先思考幾個重要問題：什麼樣的輸出內容算是「不當」？定義失敗案例。深入瞭解資料，並與領域專家密切合作。「良好」和「理想」的輸出結果有何不同？請先明確定義期望，再要求模型評分。您會多久執行一次評估？以評估為導向的開發是您可以採用的方法，但請設定應用程式部署後評估的頻率。

AI 領域的發展日新月異，建構完整的管道可能會讓人不知從何著手。從小規模開始：撰寫一項以規則為準的測試，並建構一個基本的 LLM 評估模型。一旦建立基準，您就不必再猜測，並能以工程師的身分重新掌握主導權。您跨越了從有趣的內部原型到強大功能的鴻溝，可以放心地測試、評估及發布。請注意，人為建構的評估作業難免會出現人為失誤。偏見是內建的。定期稽核模型和評估作業，以解決偏誤問題。

請按照本課程的內容建構第一個測試、查看隨附程式碼，然後開始測試。分享所學：您如何執行評估？歡迎透過 @ChromiumDev 與我們聯絡、在 BlueSky 上分享，或與 Web.dev AI 團隊預約一對一諮詢時間。

建立專家評審

課程資源

結語 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

結語