Google sử dụng công nghệ AI để dịch nội dung sang ngôn ngữ bạn ưu tiên. Bản dịch bằng AI có thể có lỗi.

Thiết lập mô hình cơ bản để đánh giá (phần 2)

Hoàn tất việc thiết lập mô hình đánh giá cơ bản để chạy các đánh giá chủ quan.

Maud Nalpas

Căn chỉnh và kiểm tra trọng tài

Bạn có một người đánh giá ban đầu, nhưng bạn chưa thể tin tưởng người đó. Giám khảo của bạn chỉ sẵn sàng khi liên tục đồng ý với ý kiến đánh giá của con người.

Tạo tập dữ liệu căn chỉnh

Để hiệu chỉnh người đánh giá, bạn cần có một tập dữ liệu căn chỉnh. Đây là một tập hợp nhỏ gồm các dữ liệu đầu vào và đầu ra chất lượng cao do con người đánh giá theo cách thủ công. Tập dữ liệu này đóng vai trò là chân lý cơ bản. Bạn sử dụng nó để xác minh rằng logic của đối tượng đánh giá luôn phù hợp với kỳ vọng của bạn.

Tập dữ liệu căn chỉnh của bạn phải chứa 30 đến 50 cặp đầu vào-đầu ra. Tập dữ liệu này đủ lớn để bao gồm một số trường hợp phức tạp, nhưng đủ nhỏ để bạn có thể gắn nhãn trong một khoảng thời gian ngắn.

Trong ví dụ về ThemeBuilder, một mục trong tập dữ liệu căn chỉnh có dạng như sau (đầu vào, đầu ra, nhãn của con người):

{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "audience": "kids 5-10",
    "tone": ["prehistoric", "loud", "fun"]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era."
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While on-theme, this motto is too formal for kids.
        It fails to capture the required 'loud' and 'fun' energy."
    }
  }
}

Để tạo dữ liệu đầu vào và đầu ra, bạn có thể trích xuất từ nhật ký sản xuất (nếu có), tạo dữ liệu theo cách thủ công, sử dụng mô hình ngôn ngữ lớn (dữ liệu tổng hợp) hoặc bắt đầu từ một số mẫu được chọn lọc và yêu cầu mô hình ngôn ngữ lớn tăng cường tập dữ liệu của bạn.

Sau khi bạn chuẩn bị xong dữ liệu đầu vào và đầu ra, hãy sử dụng bảng tiêu chí để gắn nhãn đầu ra là PASS hoặc FAIL cùng với nhóm của bạn. Đây sẽ là thông tin thực tế của bạn.

Đảm bảo tập dữ liệu liên kết của bạn bao gồm cả ví dụ PASS và ví dụ FAIL với nhiều mức độ khó, ví dụ:

10 trường hợp đường dẫn lý tưởng ví dụ mà bạn gắn nhãn là PASS.
20 trường hợp ví dụ mà nhãn của bạn được đánh giá là FAIL:
- Lỗi rõ ràng, ví dụ: một phương châm cực kỳ độc hại hoặc hoàn toàn không phù hợp với thương hiệu.
- Lỗi nhỏ, ví dụ: một phương châm hoàn hảo về ngữ pháp nhưng hơi trang trọng đối với một thương hiệu vui tươi hoặc chỉ phù hợp một phần với giọng điệu.

LLM của bạn là một người kiểm soát. Việc điều chỉnh thang điểm dựa trên một tập dữ liệu có nhiều trường hợp thất bại hơn là trường hợp thành công sẽ mang đến nhiều cơ hội hơn để điều chỉnh thang điểm nhằm phát hiện các trường hợp thất bại, và cuối cùng là cải thiện khả năng phát hiện các trường hợp thất bại của người đánh giá.

Sau khi tập dữ liệu căn chỉnh của bạn đã sẵn sàng, tập dữ liệu đó sẽ có dạng như sau:

Trường hợp hành trình suôn sẻ (ĐẠT)

// Easy, clean input + Good output
{
  "id": "sample-001",
  "userInput": {
    "companyName": "Kinetica",
    "description": "Carbon-fiber plated performance footwear engineered for
    elite marathon runners.",
    "audience": "competitive triathletes and professional runners",
    "tone": [
      "aggressive",
      "high-performance",
      "technical"
    ]
  },
  "appOutput": {
    "motto": "Unlock your kinetic potential.",
    "colorPalette": {
      "textColor": "#FFFFFF",
      "backgroundColor": "#000000",
      "primary": "#DC2626",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "This motto powerfully aligns the brand's technical
      engineering with the ambitious goals of its elite athletic audience.
      Relevance: Uses 'kinetic' to expertly link the brand to physical
      energy. Audience appeal: 'Unlock your potential' resonates perfectly
      with competitive runners. Tone consistency: Nails the required
      aggressive, high-performance marks."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "Perfectly clean and motivational. No offensive or
      exclusionary language."
    },
    "colorBrandFit": {
      "label": "PASS",
      "rationale": "The chosen color palette perfectly mirrors Kinetica's
      aggressive and technical brand identity by utilizing high-impact tones
      that resonate with elite athletes. Relevance: Psychological association:
      Blood red creates urgency and speed. Harmony: Stark contrast against
      black/white feels highly technical.
      Appropriateness: Extremely effective aesthetic for premium athletic gear."
    }
  }
}

Lỗi rõ ràng (FAIL)

// Off-brand color palette
{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "description": "Dinosaur themed playground and party venue.",
    "audience": "kids 5-10",
    "tone": [
      "prehistoric",
      "loud",
      "fun"
    ]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era.",
    "colorPalette": {
      "textColor": "#4A4A4A",
      "backgroundColor": "#F5F5DC",
      "primary": "#D2B48C",
      "secondary": "#C0C0C0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While the motto relates to the dinosaur theme, its overly
      academic and formal tone fails to capture the loud and fun energy
      essential for a children's playground brand. Relevance: Effectively fits
      the dinosaur theme. Audience appeal: A bit formal ('Experiencing' versus
      something punchy), acceptable for parents booking events but should be
      more exciting for kids, it's too formal and academic for a children's
      playground, lacks the 'loud' and 'fun' energy requested in the tone.
      Tone consistency: It touches on the 'prehistoric' element adequately."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A completely family-friendly, educational-sounding statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "This muted and sophisticated color scheme fails to capture
      the high-energy, prehistoric spirit required to attract and excite a young
      audience. Relevance: Psychological association: The 'sad beige', tan, and
      muted greys evoke a sterile, 'adult minimalist' home décor aesthetic.
      Harmony: The colors are muddy and lifeless. Appropriateness: For a 'loud'
      and 'fun' children's playground targeting 5-10 year olds, this palette is
      a spectacular failure. It desperately needs vibrant, exciting primary
      colors to attract kids."
    }
  }
},

Lỗi nhỏ (FAIL)

// Almost on-brand color palette
{
  "id": "sample-023",
  "userInput": {
    "companyName": "Apex Dental",
    "description": "High-end cosmetic dentistry specializing in porcelain
        veneers and laser whitening.",
    "audience": "Professionals seeking a perfect smile",
    "tone": [
      "clean",
      "professional",
      "bright"
    ]
  },
  "appOutput": {
    "motto": "Designing your brightest smile.",
    "colorPalette": {
      "textColor": "#1A202C",
      "backgroundColor": "#FFFFFF",
      "primary": "#FFC107",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "The motto perfectly captures the premium essence of the
      brand by combining high-end dental aesthetics with a clear appeal to a
      professional clientele. Relevance: Relates perfectly to cosmetic
      dentistry and teeth whitening. Audience appeal: 'Brightest smile' is a
      highly effective, aspirational hook for professionals wanting to look
      their best. Tone consistency: Clean, upbeat, and exceedingly professional."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A very positive, medical-grade, and safe statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "The choice of bright yellow is a fundamental branding
      failure for a cosmetic dental practice as it creates a direct and
      repellent visual link to tooth discoloration, undermining the clinic's
      high-end whitening positioning. Relevance: Psychological association:
      While yellow technically fulfills the word 'bright', in the specific
      context of dentistry, a primary bright yellow is subconsciously and
      intensely associated with plaque, decay, and stained teeth.
      Harmony: It stands out strongly but sends the wrong message.
      Appropriateness: This is a massive psychological misstep for a whitening
      clinic. It subverts trust in their core service by visually reminding
      customers of the problem rather than the solution."
    }
  }
},

Mức độ phù hợp của phạm vi tiếp cận

Sau khi bạn đã chuẩn bị xong dữ liệu thực tế, hãy điều chỉnh người đánh giá cho phù hợp với nhãn của con người. Mục tiêu của bạn là đảm bảo người đánh giá luôn đồng ý với bạn và bắt chước phán đoán của con người. Bạn có thể tính điểm phù hợp dưới dạng tỷ lệ phần trăm số nhãn do người đánh giá tạo trùng khớp với số nhãn do con người tạo.

// total = all test cases
// aligned = test cases where humanEval.label === llmJudgeEval.label
// For example, PASS and PASS
const alignment = (aligned / total) * 100;

Đặt điểm liên kết mục tiêu, ví dụ: 85%. Mục tiêu của bạn có thể thay đổi tuỳ theo trường hợp sử dụng.

Chạy mô hình đánh giá dựa trên tập dữ liệu liên kết. Nếu điểm căn chỉnh của bạn thấp hơn mục tiêu, hãy đọc lý do của người đánh giá để hiểu tại sao họ đưa ra nhãn không chính xác. Sửa đổi chỉ dẫn hệ thống và câu lệnh đánh giá để thu hẹp khoảng cách. Lặp lại bước này cho đến khi bạn đạt được điểm số mục tiêu.

Các phương pháp hay nhất

Để giúp giám khảo chấm điểm nhất quán, hãy làm theo các phương pháp hay nhất sau:

Tránh tình trạng khớp quá mức. Tổng quát hoá hướng dẫn và tránh đưa ra hướng dẫn quá cụ thể cho tập dữ liệu căn chỉnh của bạn. Nếu bạn cung cấp hướng dẫn cụ thể, chẳng hạn như tránh một số cụm từ nhất định, thì mô hình sẽ vượt qua bài kiểm tra mức độ phù hợp cụ thể này một cách hiệu quả, nhưng không thể khái quát hoá cho dữ liệu mới. Vấn đề này được gọi là hiện tượng khớp quá mức.
Tối ưu hoá chỉ dẫn hệ thống và câu lệnh đánh giá. Các kỹ thuật tối ưu hoá câu lệnh bao gồm sửa đổi câu lệnh theo cách thủ công, yêu cầu một LLM khác đề xuất các điểm cải tiến hoặc áp dụng các thay đổi dựa trên sự kết hợp của các kỹ thuật này. Các kỹ thuật tối ưu hoá câu lệnh có thể từ thủ công đến rất nâng cao, ví dụ: các thuật toán mô phỏng quá trình tiến hoá sinh học. Ghi nhật ký các thay đổi để huỷ các thay đổi đó nếu cần.

Để xem chế độ căn chỉnh trong ThemeBuilder, hãy chạy kiểm thử căn chỉnh.

Đầu ra của thiết bị đầu cuối trong một bài kiểm thử căn chỉnh cho thấy tỷ lệ thành công/thất bại. — Ví dụ về kiểm thử căn chỉnh.

Kiểm thử nghiêm ngặt bằng quy trình khởi động

Việc đạt được mục tiêu 85% mức độ phù hợp không đảm bảo rằng người đánh giá của bạn hoạt động hiệu quả với dữ liệu thực tế. Kiểm tra khả năng chịu tải của giám khảo bằng một kỹ thuật thống kê gọi là khởi động. Việc khởi động tạo ra các phiên bản mới của tập dữ liệu mà không cần nỗ lực gắn nhãn thêm.

Kiểm thử: Lấy mẫu lại ngẫu nhiên 30 mục từ tập dữ liệu của bạn có thay thế. Trong một lần chạy, một trường hợp khó có thể được chọn 5 lần, khiến bài kiểm thử trở nên khó hơn nhiều. Chạy kiểm thử căn chỉnh trên các bộ ngẫu nhiên này nhiều lần và tính toán độ lệch trung bình về độ căn chỉnh và điểm số trong các lần chạy này. Không có số lượng cụ thể, nhưng 10 lần lặp lại là một đường cơ sở hữu ích cho các dự án cỡ trung. Thực hiện nhiều lần lặp lại hơn để tăng độ tin cậy.
Cách khắc phục: Nếu điểm phù hợp của bạn dao động đáng kể (phương sai cao), thì người đánh giá của bạn chưa đáng tin cậy. Điểm số ban đầu của bạn chỉ là sự trùng hợp ngẫu nhiên do một vài trường hợp dễ dàng. Mở rộng bảng tiêu chí chấm điểm và thêm nhiều ví dụ đa dạng, mang tính thử thách hơn vào tập dữ liệu liên kết.

Hình ảnh minh hoạ một kiểm định tự khởi động, cho thấy cách lấy lại mẫu có thay thế có thể đại diện quá mức hoặc đại diện không đầy đủ cho một số lớp dữ liệu nhất định. — Vì các đối tượng được lấy mẫu phụ bằng cách thay thế, một số lớp có thể được biểu thị quá mức (biểu thị bằng các viên bi màu vàng trong mẫu khởi động 1 và 2), trong khi những lớp khác có thể được biểu thị dưới mức (biểu thị bằng các viên bi màu đỏ trong mẫu khởi động 1 và 2) hoặc thậm chí bị thiếu (biểu thị bằng các viên bi màu xanh lục trong mẫu khởi động 3). Xem hình minh hoạ khoa học gốc trên ResearchGate.

Bạn có thể thử.

Đầu ra của thiết bị đầu cuối trong một bài kiểm thử khởi động. — Ví dụ về kiểm thử khởi động.

Kiểm tra tính nhất quán của bản thân

Bạn chỉ có thể tin tưởng vào chương trình đánh giá nếu chương trình này luôn đưa ra cùng một câu trả lời cho cùng một đầu vào. Nếu bạn đặt nhiệt độ ở mức 0, thì kết quả đánh giá sẽ nhất quán 100%. Xác nhận tính nhất quán này.

Kiểm thử: Chạy nhiều lần trên cùng một tập dữ liệu, chẳng hạn như một mẫu ngẫu nhiên từ tập dữ liệu liên kết. Tính phương sai cho từng trường hợp kiểm thử trong các lần lặp lại đó. Đặt mục tiêu đạt được độ nhất quán 100% (không có phương sai). Nếu phương sai lớn hơn 0, thì thử nghiệm sẽ thất bại vì giám khảo đưa ra các câu trả lời khác nhau cho cùng một đầu vào.
Khắc phục: Câu lệnh đánh giá của bạn có thể mơ hồ hoặc nhiệt độ quá cao. Viết lại những phần không rõ ràng trong câu lệnh, đặc biệt là tiêu chí chấm điểm của bạn. Giảm nhiệt độ xuống 0 (hoặc đặt thinking_level thành cao), nếu bạn chưa thực hiện việc này.

Để xem ví dụ thực tế, hãy chạy kiểm thử.

Kết quả đầu ra trên thiết bị đầu cuối của kiểm thử tính nhất quán của người đánh giá. — Trong ví dụ này, chúng tôi đã kiểm thử 6 mẫu cho mỗi chỉ số trong số 3 chỉ số của mình (mức độ độc hại của phương châm, mức độ phù hợp của phương châm với thương hiệu và mức độ phù hợp của màu sắc với thương hiệu). Kết quả gần như hoàn toàn ổn định, nhưng một số mẫu có kết quả không nhất quán.

Kiểm tra cuối kỳ

Phương pháp khởi động giúp bạn chạy quy trình kiểm tra ban đầu để ngăn chặn tình trạng khớp quá mức. Tiếp theo, bạn sẽ chạy một thử nghiệm cuối cùng bằng dữ liệu mới. Đây là bước xác nhận cuối cùng để đảm bảo rằng giám khảo có thể chấm điểm chính xác cho các dữ liệu đầu vào mới.

Kiểm tra: Giữ một tập dữ liệu riêng biệt cho bài kiểm tra cuối khoá gồm 20 mẫu được con người gắn nhãn mà bạn chưa sử dụng trong quá trình điều chỉnh. Chạy chương trình đánh giá của bạn dựa trên tập dữ liệu này.
Khắc phục: Nếu điểm phù hợp của bạn vẫn ở mức cao, tức là người đánh giá của bạn đã sẵn sàng. Nếu điểm số giảm mạnh, điều này cho thấy tình trạng khớp quá mức: bạn đã điều chỉnh câu lệnh quá nhiều lần để vượt qua dữ liệu liên kết cụ thể. Mở rộng câu lệnh, tiêu chí chấm điểm và ví dụ minh hoạ của bạn.