結語

您已完成 AI 評估課程。您已將現有的網頁測試知識對應至 LLM 世界、建立以規則為基礎的單元測試、建構及測試評估模型,並設定測試管道。

我們這個產業很重視氛圍,也擔心 LLM 的非決定性。事實上,如果您曾建構網頁應用程式,且該應用程式必須在各種瀏覽器、裝置和螢幕尺寸上順暢運作,您就已做好準備。一個輸入可能會導致多種行為、您無法完全控制的環境,以及臭名昭彰的「在我的機器上運作」。

解決方案正在測試中。評估就是這類測試,可測試 AI 功能。您透過網路測試,有信心在各種瀏覽器環境中發布產品,而評估則可為 AI 功能提供同樣的保障。完成評估並提交!

開始之前,請先思考幾個重要問題: 什麼樣的輸出內容算是「不當」?定義失敗案例。深入瞭解資料,並與領域專家密切合作。「良好」和「理想」的輸出結果有何不同?請先明確定義期望,再要求模型評分。 您會多久執行一次評估?以評估為導向的開發是您可以採用的方法,但請設定應用程式部署後評估的頻率。

AI 領域的發展日新月異,建構完整的管道可能會讓人不知從何著手。從小規模開始:撰寫一項以規則為準的測試,並建構一個基本的 LLM 評估模型。一旦建立基準,您就不必再猜測,並能以工程師的身分重新掌握主導權。您跨越了從有趣的內部原型到強大功能的鴻溝,可以放心地測試、評估及發布。請注意,人為建構的評估作業難免會出現人為失誤。偏見是內建的。定期稽核模型和評估作業,以解決偏誤問題。

請按照本課程的內容建構第一個測試、查看隨附程式碼,然後開始測試。分享所學:您如何執行評估?歡迎透過 @ChromiumDev 與我們聯絡、在 BlueSky 上分享,或與 Web.dev AI 團隊預約一對一諮詢時間。