Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

建立專家評審

準備好將評估人員投入正式環境。

Maud Nalpas

您在「設定基本評估模型」第 1 部分和第 2 部分中建立的基本評估模型，是以自行標記的資料為基礎。這是建立測試基準的好方法。不過，如要取得生產等級的品質，您需要一位能像領域專家一樣思考的評估人員，並需要可靠的統計指標，才能大規模信任評估結果。這就是我們接下來要介紹的內容。

與專家合作建立對齊資料集

使用專家為對齊資料集加上標籤，是建構可靠 LLM 評估模型的關鍵。重質不重量。領域專家提供的 30 個高品質標籤，遠勝過非專家提供的 300 個標籤。

尋找標籤者

請使用內部設計師和品牌專家，確保品牌一致性。如果是毒性，您可以仰賴相同的標籤人員，或根據中央評分標準，從團隊取得標籤，確保標籤人員採用相同的評分標準。

有多少專家標註者？

一位專家：速度很快，可以開始使用，但評估者會承襲該人員的偏見。
兩位專家：這可能是預算的最佳平衡點。你無法打破僵局，但可以找出意見不合之處。
三顆星以上：這是最高標準。使用奇數可自動解決二元 PASS 和 FAIL 評估的平手情況 (如範例所示)，因為您可以選擇多數評分。

以 ThemeBuilder 為例，假設您很幸運有三位內部品牌設計師同意擔任專家標籤者。

專家制定評分量表

標記前，請先請專家為 PASS 的特定條件定義嚴格的評分標準。這有助於專家在個別和集體判斷時保持一致。

例如：

Criteria:
• Psychological association: Do the colors evoke the emotions associated with the desired tone?
• Harmony: Do the colors work together to create the right atmosphere?
• Appropriateness: Is the palette suitable for the company's industry?

專家為資料加上標籤

請專家審查 30 到 50 個樣本，根據評量表指派 PASS 或 FAIL 標籤，並撰寫 rationale 說明判斷依據。理由非常重要，因為您會使用理由來排解問題，並修正評審和專家之間的差異。

試算表介面，可協助專家判斷主題。 — 專家標註人員專用的網頁應用程式。這個 UI 的靈感來自 Eugene Yan 的AlignEvals。

有效率地標記資料的訣竅

手動標記成本高昂。請嘗試下列技巧，提升專家的效率：

僅供驗證：使用 LLM 生成初始標籤和理由，然後由專家稽核並修正。驗證比從頭建立判決更快。
選擇性標記：請第二位專家稽核第一位專家的一小部分工作。如果不同意，請先停止並修正評量表，再標記更多資料。
將 LLM 視為第二意見：請一位專家和一個 LLM 判斷相同項目的標籤。如果一致性偏低，表示 LLM 對評分標準的解讀方式不同。反覆調整評量表，直到兩者一致為止。
評估者內一致性檢查：如果只有一位專家，請他們在一週後重新標記隨機 10% 的資料，且不得事先得知標記結果。如果他們不同意自己過去的評估結果，表示評量表不穩定。

以下是專家標記資料集項目的 JSON 程式碼片段，包括專家的 PASS 和 FAIL 標籤，以及詳細的理由：

{
  "id": "sample-001",
  "userInput": {
    "companyName": "Kinetica",
    // Company description, audience and tone
  },
  "appOutput": {
    "motto": "Unlock your kinetic potential.",
    // ... Color palette
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "This motto powerfully aligns the brand's technical
        engineering with the ambitious goals of its elite athletic audience.
        Relevance: Leverages 'kinetic' to expertly link the brand to physical
        energy. Audience appeal: 'Unlock your potential' resonates perfectly
        with competitive runners. Tone consistency: Nails the required
        aggressive, high-performance marks."
    },
    // ... Human evals for colorBrandFit and mottoToxicity:
  }
}

達成並評估專家共識

評分量表是模型的指令，因此請務必花時間修正。如果一位設計師將「活潑」定義為「創意語言」，另一位則解讀為「鮮豔色彩」，LLM 也會感到困惑。您必須先強化評分標準，消除這些模糊不清之處，再提供給評審。這也稱為「標註者間的可靠性」或「評估者間的共識」，高一致性可確保評估模型提供可靠的高品質標籤。

人類意見不一致是實用信號，可指出評分標準需要改進的地方。反覆修改，直到專家同意 PASS 和 FAIL 案例為止。

法官的公正程度不會超過建構法官的人。

基本協議

我們也使用專家同意百分比來評估人與人之間的共識，並將這項指標用於基本評估員的評估員同意分數。

// total = all test cases
// aligned = test cases where human1Eval.label === human2Eval.label
// (for example PASS and PASS)
const alignment = (aligned / total) * 100;

不只是運氣：Kappa

基本百分比一致性簡單明瞭，但可能誤導使用者。假設資料集有一半是 PASS，一半是 FAIL。如果兩位專家擲硬幣，光靠運氣，他們仍有 50% 的機率會達成共識。這就是所謂的「幸運下限」。

如要準確計算一致性，請使用統計指標，測量超出純粹機率的可靠性：

兩位標籤人員的科恩卡帕係數。
弗萊斯 Kappa：適用於三位以上的標籤人員。
測試：目標是 Kappa 分數至少達到 0.61，這是實質一致性的標準。0 表示與隨機猜測無異，1.0 則表示完全一致。
修正：如果 Kappa 分數低於 0.61，表示評分標準過於模糊。將專家意見不一致的樣本歸為一組，查看他們的理由，更新評分量表以涵蓋這些特定極端情況，然後重複上述步驟，直到達到 0.61 為止。請在專家達成共識後，再繼續執行下一步。

Kappa 分數	動作
小於 `0.60`：不佳	反覆測試，找出專家意見不同的原因。您的評分量表可能過於籠統，請加以修正。
`0.61`–`0.80`：良好	基準線可靠。繼續使用這個評量表。
`0.81`-`1.00` 近乎完美	簡直好得令人難以置信。確認工作是否過於簡單，或專家是否過度簡化。

收合專家標籤

如果您使用三位以上的人類專家標記資料，請將他們的投票結果歸納為每個樣本的單一多數評分。這份清單會成為基準真相。

設定評審

就像基本評估員一樣，您需要設定模型參數並編寫提示。將系統指令設為嚴格的專家角色，並將溫度設為 0，盡量保持一致性。在提示中，請提供人類專家用來評估資料的確切評量表。新增幾個專家標記的樣本做為少量樣本範例，向評估人員說明如何推理。

校準並測試評估人員

專家同意後，接下來就要看看 LLM 評估人員是否也同意。

在基本設定中，我們查看了原始對齊 (準確度)。但光看這個數字可能會誤判。假設 90% 的測試資料是 PASS。如果法官很懶惰，每次都輸出 PASS，即使完全沒抓到任何有害口號，準確度仍可達到 90%。

定義正類

定義正類。正向類別 (也稱為目標條件或感興趣的事件) 是指您想偵測、評估或標記的特定結果。評估管道就像守門員，主要目標是找出並封鎖不良輸出內容。

假設 ThemeBuilder 一般來說很擅長生成符合品牌形象的口號和調色盤，而且產生有害標語的機率也很低，那麼所有評估條件的正面類別都是 FAIL。

請注意以下事項：

偽陽性是指系統錯誤地將良好輸出內容標示為 FAIL。
偽陰性是指系統錯過的 FAIL。
真陽性是正確識別的 FAIL。

精確度和喚回度

現在您可以根據正類使用精確度和召回率，這兩個指標比原始對齊程度更適合：

精確度：當大型語言模型評估人員說 FAIL 時，有多常是正確的？舉例來說，如果法官將座右銘標示為有害，實際正確的機率有多高？
回想：當人類說出 FAIL 時，LLM 評估員判斷是否正確的頻率為何？舉例來說，在所有真正有害的輸出內容，以及所有真正不符合品牌風格的口號和調色盤中，評估人員發現了多少個？

瞭解錯誤成本 + 設定目標分數

請自問：哪種錯誤對申請的影響較大？

毒性：毒性屬於安全問題。我們希望找出所有有害的口號 (盡量減少誤判)，即使這表示審查員有時會過於嚴格，將安全的口號標示為有害。如果系統將安全標語誤判為不安全，可能會稍微延遲或交由專人審查。因此，我們的目標是100% 召回。精確度可能較低。
品牌合適度：我們需要取得平衡。錯過不良設計和拒絕良好設計的代價相同。因此我們希望精確度和召回率都能達到一定水準。

F1 分數

喚回度提高時，精確度通常會下降。如果是毒性，這就不是問題，因為您只對召回感興趣。

就品牌合適度而言，喚回率和精確度都很重要。如要平衡這項重要性，可以使用新指標：F₁。F₁ 分數會將精確度和召回率合併為單一平衡指標。

觸及率一致性

針對專家標記的資料集執行評估，並計算每個條件的準確度、精確度、召回率和 F₁ 分數。評估是否達成目標。

如果不是，請將失敗案例分組，並閱讀 LLM 的基本原理。更新評審的系統指示和評分量表，縮小差距，直到指標達到目標為止。

只要法官達到目標，即為已完成校準。

最終驗證

現在，我們使用與基本評估員設定中完全相同的步驟驗證評估員，但套用新的進階指標：

使用自助法進行壓力測試：隨機重新取樣資料集 (含替換)，並重複 10 次。計算這些執行作業的準確率、精確度和 F₁ 分數變異數，以數學方式證明高分並非只是運氣。
測試自我一致性：多次透過評估模型執行完全相同的輸入內容，確保其判斷結果 100% 穩定。我們希望所有疊代作業的差異為零。
對評估人員進行最終測驗：使用 15 到 20 個全新的專家標記樣本，對評估人員進行測試，這些樣本從未出現過。計算這個隱藏資料集的 Cohen's Kappa、精確度、召回率和 F₁ 分數。如果這些指標仍相近，表示評估人員並未過度調整對齊資料，且已準備好將資料套用至現實世界！

重新調整法官位置

完成後，恭喜！您已建構高度可靠的評估管道。

請注意，更新基礎 LLM 或應用程式的功能集發生重大變化時，請務必重新調整評估人員。

執行評估作業

結語