隆重推出 AI 評估：不要猜測，要測量

LLM 的神奇功能可能會誘使我們略過測試，但評估是您安心發布的關鍵。

Maud Nalpas

假設您正在製作網頁式主題建構工具的原型。這項工具十分有趣：使用者在網頁應用程式中輸入公司名稱和說明、目標對象，以及語氣和風格，前端會將這項資訊傳送至伺服器。伺服器會使用大型語言模型 (LLM) 生成符合預期語氣和氛圍的創意口號，以及與品牌一致的無障礙調色盤。並以小型 JSON 物件的形式傳回這項資料。

我們將這個應用程式命名為 ThemeBuilder。

ThemeBuilder 輸入和輸出內容。 — ThemeBuilder 會顯示 Midnight Coffee 公司的範例主題。應用程式會根據公司名稱、說明、目標對象和語氣，輸出座右銘和調色盤。

您選取基礎 LLM，並反覆調整提示。內部設計師很喜歡這些色調，標語也朗朗上口。

現在，您有以下問題：

是否已準備好投入正式環境？您不確定應用程式的輸出品質是否夠穩定。部分內部測試人員回報調色盤損壞或宣傳口號不符合品牌形象。修正一個案例後，又出現兩個錯誤。
可以變更模型嗎？您可能想升級至相同 LLM 的最新版本，以節省延遲時間，或是從代管服務改用自行代管模型，以降低成本。您不知道這項變更會改善還是降低應用程式的輸出內容品質，也無法測試迴歸。
可以安全運送嗎？有人回報一次有害輸出內容，但您無法重現。這只是僥倖還是應該封鎖發布？

由於 LLM 的輸出內容品質差異過大，團隊決定停止發布。如果沒有測試，很難有信心發布。