Thiết lập mô hình cơ bản để đánh giá (phần 2)

Hoàn tất việc thiết lập mô hình đánh giá cơ bản để chạy các đánh giá chủ quan.

Căn chỉnh và kiểm tra trọng tài

Bạn có một người đánh giá ban đầu, nhưng bạn chưa thể tin tưởng người đó. Giám khảo của bạn chỉ sẵn sàng khi liên tục đồng ý với ý kiến đánh giá của con người.

Tạo tập dữ liệu căn chỉnh

Để điều chỉnh người đánh giá, bạn cần có một tập dữ liệu căn chỉnh. Đây là một tập hợp nhỏ gồm các dữ liệu đầu vào và đầu ra chất lượng cao do con người đánh giá theo cách thủ công. Tập dữ liệu này đóng vai trò là chân lý cơ bản. Bạn sẽ sử dụng nó để xác minh rằng logic của trọng tài luôn phù hợp với kỳ vọng của bạn.

Tập dữ liệu căn chỉnh của bạn phải chứa 30 đến 50 cặp đầu vào-đầu ra. Tập dữ liệu này đủ lớn để bao gồm một số trường hợp biên, nhưng đủ nhỏ để bạn có thể gắn nhãn trong một khoảng thời gian ngắn.

Trong ví dụ về ThemeBuilder, một mục trong tập dữ liệu căn chỉnh sẽ có dạng như sau (đầu vào, đầu ra, nhãn của con người):

{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "audience": "kids 5-10",
    "tone": ["prehistoric", "loud", "fun"]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era."
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While on-theme, this motto is too formal for kids.
        It fails to capture the required 'loud' and 'fun' energy."
    }
  }
}

Để tạo dữ liệu đầu vào và đầu ra, bạn có thể lấy dữ liệu từ nhật ký sản xuất (nếu có), tạo dữ liệu theo cách thủ công, sử dụng mô hình ngôn ngữ lớn (dữ liệu tổng hợp) hoặc bắt đầu từ một số mẫu được chọn lọc và yêu cầu mô hình ngôn ngữ lớn tăng cường tập dữ liệu của bạn.

Sau khi bạn chuẩn bị xong dữ liệu đầu vào và đầu ra, hãy sử dụng bảng tiêu chí để gắn nhãn đầu ra là PASS hoặc FAIL cùng với nhóm của bạn. Đây sẽ là thông tin thực tế của bạn.

Đảm bảo tập dữ liệu căn chỉnh của bạn bao gồm cả ví dụ PASS và ví dụ FAIL với nhiều mức độ khó, chẳng hạn như:

  • 10 trường hợp ví dụ về đường dẫn thành công mà người đánh giá nên gắn nhãn là PASS.
  • 20 trường hợp ví dụ mà người đánh giá nên gắn nhãn là FAIL:
    • Lỗi rõ ràng, ví dụ: một phương châm cực kỳ độc hại hoặc hoàn toàn không phù hợp với thương hiệu.
    • Lỗi nhỏ, ví dụ: một phương châm hoàn hảo về ngữ pháp nhưng hơi trang trọng đối với một thương hiệu vui tươi, hoặc chỉ phù hợp một phần với giọng điệu.

LLM của bạn là một người kiểm soát. Việc điều chỉnh thang điểm trên một tập dữ liệu có nhiều trường hợp thất bại hơn trường hợp thành công sẽ mang đến cho bạn nhiều cơ hội hơn để điều chỉnh thang điểm nhằm phát hiện các trường hợp thất bại, và cuối cùng giúp giám khảo phát hiện các trường hợp thất bại hiệu quả hơn.

Sau khi tập dữ liệu căn chỉnh đã sẵn sàng, tập dữ liệu đó sẽ có dạng như sau:

Trường hợp hành trình suôn sẻ (PASS)

// Easy, clean input + Good output
{
  "id": "sample-001",
  "userInput": {
    "companyName": "Kinetica",
    "description": "Carbon-fiber plated performance footwear engineered for
    elite marathon runners.",
    "audience": "competitive triathletes and professional runners",
    "tone": [
      "aggressive",
      "high-performance",
      "technical"
    ]
  },
  "appOutput": {
    "motto": "Unlock your kinetic potential.",
    "colorPalette": {
      "textColor": "#FFFFFF",
      "backgroundColor": "#000000",
      "primary": "#DC2626",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "This motto powerfully aligns the brand's technical
      engineering with the ambitious goals of its elite athletic audience.
      Relevance: Uses 'kinetic' to expertly link the brand to physical
      energy. Audience appeal: 'Unlock your potential' resonates perfectly
      with competitive runners. Tone consistency: Nails the required
      aggressive, high-performance marks."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "Perfectly clean and motivational. No offensive or
      exclusionary language."
    },
    "colorBrandFit": {
      "label": "PASS",
      "rationale": "The chosen color palette perfectly mirrors Kinetica's
      aggressive and technical brand identity by utilizing high-impact tones
      that resonate with elite athletes. Relevance: Psychological association:
      Blood red creates urgency and speed. Harmony: Stark contrast against
      black/white feels highly technical.
      Appropriateness: Extremely effective aesthetic for premium athletic gear."
    }
  }
}

Lỗi rõ ràng (FAIL)

// Off-brand color palette
{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "description": "Dinosaur themed playground and party venue.",
    "audience": "kids 5-10",
    "tone": [
      "prehistoric",
      "loud",
      "fun"
    ]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era.",
    "colorPalette": {
      "textColor": "#4A4A4A",
      "backgroundColor": "#F5F5DC",
      "primary": "#D2B48C",
      "secondary": "#C0C0C0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While the motto relates to the dinosaur theme, its overly
      academic and formal tone fails to capture the loud and fun energy
      essential for a children's playground brand. Relevance: Effectively fits
      the dinosaur theme. Audience appeal: A bit formal ('Experiencing' versus
      something punchy), acceptable for parents booking events but should be
      more exciting for kids, it's too formal and academic for a children's
      playground, lacks the 'loud' and 'fun' energy requested in the tone.
      Tone consistency: It touches on the 'prehistoric' element adequately."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A completely family-friendly, educational-sounding statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "This muted and sophisticated color scheme fails to capture
      the high-energy, prehistoric spirit required to attract and excite a young
      audience. Relevance: Psychological association: The 'sad beige', tan, and
      muted greys evoke a sterile, 'adult minimalist' home décor aesthetic.
      Harmony: The colors are muddy and lifeless. Appropriateness: For a 'loud'
      and 'fun' children's playground targeting 5-10 year olds, this palette is
      a spectacular failure. It desperately needs vibrant, exciting primary
      colors to attract kids."
    }
  }
},

Lỗi nhỏ (FAIL)

// Almost on-brand color palette
{
  "id": "sample-023",
  "userInput": {
    "companyName": "Apex Dental",
    "description": "High-end cosmetic dentistry specializing in porcelain
        veneers and laser whitening.",
    "audience": "Professionals seeking a perfect smile",
    "tone": [
      "clean",
      "professional",
      "bright"
    ]
  },
  "appOutput": {
    "motto": "Designing your brightest smile.",
    "colorPalette": {
      "textColor": "#1A202C",
      "backgroundColor": "#FFFFFF",
      "primary": "#FFC107",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "The motto perfectly captures the premium essence of the
      brand by combining high-end dental aesthetics with a clear appeal to a
      professional clientele. Relevance: Relates perfectly to cosmetic
      dentistry and teeth whitening. Audience appeal: 'Brightest smile' is a
      highly effective, aspirational hook for professionals wanting to look
      their best. Tone consistency: Clean, upbeat, and exceedingly professional."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A very positive, medical-grade, and safe statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "The choice of bright yellow is a fundamental branding
      failure for a cosmetic dental practice as it creates a direct and
      repellent visual link to tooth discoloration, undermining the clinic's
      high-end whitening positioning. Relevance: Psychological association:
      While yellow technically fulfills the word 'bright', in the specific
      context of dentistry, a primary bright yellow is subconsciously and
      intensely associated with plaque, decay, and stained teeth.
      Harmony: It stands out strongly but sends the wrong message.
      Appropriateness: This is a massive psychological misstep for a whitening
      clinic. It subverts trust in their core service by visually reminding
      customers of the problem rather than the solution."
    }
  }
},

Mức độ phù hợp của phạm vi tiếp cận

Khi đã chuẩn bị xong dữ liệu thực tế, bạn cần điều chỉnh người đánh giá cho phù hợp với nhãn của con người. Mục tiêu của bạn là đảm bảo rằng người đánh giá luôn đồng ý với bạn và bắt chước phán đoán của con người. Bạn có thể tính điểm phù hợp là tỷ lệ phần trăm số nhãn do người đánh giá tạo trùng khớp với số nhãn do con người tạo.

// total = all test cases
// aligned = test cases where humanEval.label === llmJudgeEval.label
// For example, PASS and PASS
const alignment = (aligned / total) * 100;

Đặt điểm liên kết mục tiêu, ví dụ: 85%. Mục tiêu của bạn có thể khác nhau tuỳ theo trường hợp sử dụng.

Chạy mô hình đánh giá dựa trên tập dữ liệu liên kết. Nếu điểm liên kết của bạn thấp hơn mục tiêu, hãy đọc lý do của người đánh giá để hiểu tại sao họ nhầm lẫn. Sửa đổi chỉ dẫn hệ thống và câu lệnh đánh giá để thu hẹp khoảng cách. Lặp lại bước này cho đến khi bạn đạt được điểm số mục tiêu.

Các phương pháp hay nhất

Để giúp giám khảo chấm điểm nhất quán, hãy làm theo các phương pháp hay nhất sau:

  • Tránh tình trạng khớp quá mức. Hướng dẫn nên được khái quát hoá và không quá cụ thể đối với tập dữ liệu căn chỉnh của bạn. Nếu bạn đưa ra hướng dẫn cụ thể, chẳng hạn như tránh một số cụm từ nhất định, thì mô hình sẽ rất giỏi vượt qua bài kiểm tra mức độ phù hợp cụ thể này, nhưng sẽ không thể khái quát hoá cho dữ liệu mới. Vấn đề này được gọi là khớp quá mức.
  • Tối ưu hoá chỉ dẫn hệ thống và câu lệnh đánh giá. Các kỹ thuật tối ưu hoá câu lệnh bao gồm sửa đổi câu lệnh theo cách thủ công, yêu cầu một LLM khác đề xuất các điểm cải tiến hoặc áp dụng các thay đổi dựa trên sự kết hợp của các kỹ thuật này. Các kỹ thuật tối ưu hoá câu lệnh có thể từ thủ công đến rất nâng cao, ví dụ: các thuật toán mô phỏng quá trình tiến hoá sinh học. Ghi nhật ký các thay đổi để huỷ các thay đổi đó nếu cần.

Để xem chế độ căn chỉnh trong ThemeBuilder, hãy tự chạy kiểm thử căn chỉnh.

Ví dụ về kiểm thử căn chỉnh.

Kiểm tra tính ổn định bằng quy trình khởi động

Việc đạt được mục tiêu 85% mức độ phù hợp không đảm bảo rằng người đánh giá của bạn sẽ hoạt động hiệu quả với dữ liệu thực tế. Kiểm tra khả năng của người đánh giá bằng một thủ thuật thống kê gọi là phương pháp khởi động lại. Phương pháp tự khởi động tạo ra các phiên bản mới của tập dữ liệu mà không cần nỗ lực gắn nhãn thêm.

** Kiểm thử: Lấy mẫu lại ngẫu nhiên 30 mục từ tập dữ liệu của bạn có thay thế. Trong một lần chạy, một trường hợp khó có thể được chọn 5 lần, khiến bài kiểm thử trở nên khó hơn nhiều. Chạy kiểm thử căn chỉnh trên các bộ ngẫu nhiên này nhiều lần và tính toán độ căn chỉnh trung bình và phương sai điểm số trên các lần chạy này. Không có con số nào là hoàn hảo, nhưng 10 lần lặp lại là một đường cơ sở phù hợp cho các dự án cỡ trung. Thực hiện nhiều lần lặp lại hơn để có độ tin cậy cao hơn. ** Cách khắc phục: Nếu điểm phù hợp của bạn dao động đáng kể (phương sai lớn), thì tức là người đánh giá của bạn chưa đáng tin cậy. Điểm số ban đầu của bạn là do may mắn khi gặp phải một vài trường hợp dễ. Mở rộng bộ tiêu chí chấm điểm và thêm nhiều ví dụ đa dạng, phức tạp hơn vào tập dữ liệu liên kết.

Hình ảnh minh hoạ về một kiểm thử khởi động. Vì các đối tượng được lấy mẫu phụ bằng cách thay thế, nên một số lớp có thể được biểu thị quá mức (biểu thị bằng các viên bi màu vàng trong mẫu khởi động 1 và 2), trong khi những lớp khác có thể được biểu thị dưới mức (biểu thị bằng các viên bi màu đỏ trong mẫu khởi động 1 và 2) hoặc thậm chí bị thiếu (biểu thị bằng các viên bi màu xanh lục trong mẫu khởi động 3). Xem hình minh hoạ khoa học gốc trên ResearchGate.

Bạn có thể tự mình dùng thử.

Ví dụ về thử nghiệm khởi động.

Kiểm tra tính nhất quán của bản thân

Bạn chỉ có thể tin tưởng vào chương trình đánh giá nếu chương trình này luôn đưa ra cùng một câu trả lời cho cùng một đầu vào. Nếu bạn đã đặt nhiệt độ thành 0, thì người đánh giá phải nhất quán 100%. Kiểm tra để xác nhận.

  • Kiểm thử: Chạy nhiều lần trên cùng một tập dữ liệu, ví dụ: một mẫu ngẫu nhiên từ tập dữ liệu liên kết. Tính phương sai cho từng trường hợp kiểm thử trong các lần lặp lại đó. Đặt mục tiêu đạt được độ nhất quán 100% (không có phương sai). Nếu phương sai lớn hơn 0, tức là bài kiểm thử đang thất bại vì có nghĩa là chương trình đánh giá của bạn đưa ra các câu trả lời khác nhau cho cùng một đầu vào.
  • Khắc phục: Câu lệnh đánh giá của bạn có thể mơ hồ hoặc nhiệt độ quá cao. Viết lại những phần trông có vẻ không rõ ràng trong câu lệnh, đặc biệt là tiêu chí chấm điểm của bạn. Giảm nhiệt độ xuống 0 (hoặc đặt thinking_level thành cao), nếu bạn chưa thực hiện.

Để xem ví dụ thực tế, hãy tự chạy thử nghiệm.

Kết quả đầu ra trên thiết bị đầu cuối của kiểm thử tính nhất quán của người đánh giá.
Trong ví dụ này, chúng tôi đã kiểm thử 6 mẫu cho mỗi chỉ số trong số 3 chỉ số của mình (mức độ độc hại của phương châm, mức độ phù hợp của phương châm với thương hiệu và mức độ phù hợp của màu sắc với thương hiệu). Kết quả gần như hoàn toàn ổn định, nhưng một số mẫu có kết quả không nhất quán.

Kiểm tra cuối kỳ

Phương pháp khởi động giúp bạn chạy quy trình kiểm tra ban đầu để ngăn chặn tình trạng khớp quá mức. Giờ đây, bạn sẽ chạy một thử nghiệm cuối cùng bằng cách sử dụng dữ liệu mới. Đây là bước xác nhận cuối cùng để đảm bảo rằng trọng tài có thể chấm điểm chính xác cho các thông tin đầu vào mới.

  • Kiểm thử: Giữ một tập dữ liệu riêng biệt gồm 20 mẫu được con người gắn nhãn mà bạn chưa sử dụng trong quá trình điều chỉnh. Chạy chương trình đánh giá của bạn dựa trên tập dữ liệu này.
  • Khắc phục: Nếu điểm phù hợp của bạn vẫn ở mức cao, thì người đánh giá đã sẵn sàng! Nếu điểm số giảm mạnh, có thể là do bạn đã điều chỉnh lời nhắc quá nhiều lần để vượt qua dữ liệu liên kết cụ thể. Mở rộng câu lệnh, tiêu chí chấm điểm và ví dụ minh hoạ.

Để xem ví dụ thực tế, hãy tự chạy thử nghiệm.

Tóm tắt

Bạn đã chạy nhiều kiểm thử để tạo ra giám khảo cơ bản, bao gồm:

  • Bài kiểm tra mức độ phù hợp sẽ kiểm tra xem người đánh giá có đánh giá chính xác hay không.
  • Kiểm tra tính nhạy cảm của dữ liệu trong quá trình khởi động và kiểm tra cuối kỳ. Liệu người đánh giá có thường xuyên đưa ra phán đoán chính xác khi đối mặt với dữ liệu mới hay không?
  • Thử nghiệm tính nhất quán tự thân đo lường nhiễu hệ thống, tức là mức độ ảnh hưởng của tính ngẫu nhiên nội tại của giám khảo LLM đến kết quả.