Selesaikan penyiapan model penilai dasar untuk menjalankan evaluasi subjektif Anda.
Menyelaraskan dan menguji penilai
Anda memiliki penilai awal, tetapi Anda belum dapat mempercayainya. Penilai Anda hanya siap jika secara konsisten setuju dengan penilaian manusia.
Membuat set data penyelarasan
Untuk mengkalibrasi penilai, Anda memerlukan set data penyelarasan. Ini adalah kumpulan input dan output berkualitas tinggi yang kecil dan diberi rating secara manual oleh manusia. Set data ini berfungsi sebagai kebenaran dasar Anda. Anda akan menggunakannya untuk memverifikasi bahwa logika penilai secara konsisten selaras dengan ekspektasi Anda.
Set data penyelarasan Anda harus berisi 30-50 pasangan input-output. Set ini cukup besar untuk mencakup beberapa kasus ekstrem, tetapi cukup kecil sehingga Anda dapat memberi label dalam waktu singkat.
Dalam contoh ThemeBuilder, entri dalam set data penyelarasan terlihat seperti ini (input, output, label manusia):
{
"id": "sample-014",
"userInput": {
"companyName": "Rawrr!",
"audience": "kids 5-10",
"tone": ["prehistoric", "loud", "fun"]
},
"appOutput": {
"motto": "Experiencing the prehistoric era."
},
"humanEvaluation": {
"mottoBrandFit": {
"label": "FAIL",
"rationale": "While on-theme, this motto is too formal for kids.
It fails to capture the required 'loud' and 'fun' energy."
}
}
}
Untuk membuat input dan output, Anda dapat mengambil dari log produksi jika tersedia, membuat data secara manual, menggunakan LLM (data sintetis), atau memulai dari beberapa sampel pilihan dan meminta LLM untuk menambah set data Anda.
Setelah input dan output Anda siap, gunakan rubrik Anda untuk memberi label pada output sebagai PASS atau FAIL dengan tim Anda. Nama ini akan menjadi kebenaran dasar Anda.
Pastikan set data penyelarasan Anda menyertakan contoh PASS dan contoh FAIL dengan tingkat kesulitan yang bervariasi, misalnya:
- 10 contoh kasus happy path yang harus diberi label
PASSoleh penilai Anda. - 20 contoh kasus yang harus diberi label
FAILoleh penilai Anda:- Kegagalan yang jelas, misalnya motto yang sangat beracun atau sama sekali tidak sesuai merek.
- Kegagalan yang tidak terlalu jelas, misalnya motto yang secara tata bahasa sempurna tetapi sedikit terlalu formal untuk merek yang menyenangkan, atau yang hanya sebagian sesuai dengan nada.
Penilai LLM Anda adalah penjaga gerbang. Menyelaraskannya pada set data yang berisi lebih banyak kasus kegagalan daripada kasus lulus memberi Anda lebih banyak peluang untuk menyesuaikan rubrik guna menangkap kegagalan, dan pada akhirnya membuat penilai lebih baik dalam mendeteksi kegagalan.
Setelah set data penyelarasan Anda siap, tampilannya akan terlihat seperti ini:
Kasus happy path (PASS)
// Easy, clean input + Good output
{
"id": "sample-001",
"userInput": {
"companyName": "Kinetica",
"description": "Carbon-fiber plated performance footwear engineered for
elite marathon runners.",
"audience": "competitive triathletes and professional runners",
"tone": [
"aggressive",
"high-performance",
"technical"
]
},
"appOutput": {
"motto": "Unlock your kinetic potential.",
"colorPalette": {
"textColor": "#FFFFFF",
"backgroundColor": "#000000",
"primary": "#DC2626",
"secondary": "#E2E8F0"
}
},
"humanEvaluation": {
"mottoBrandFit": {
"label": "PASS",
"rationale": "This motto powerfully aligns the brand's technical
engineering with the ambitious goals of its elite athletic audience.
Relevance: Uses 'kinetic' to expertly link the brand to physical
energy. Audience appeal: 'Unlock your potential' resonates perfectly
with competitive runners. Tone consistency: Nails the required
aggressive, high-performance marks."
},
"mottoToxicity": {
"label": "PASS",
"rationale": "Perfectly clean and motivational. No offensive or
exclusionary language."
},
"colorBrandFit": {
"label": "PASS",
"rationale": "The chosen color palette perfectly mirrors Kinetica's
aggressive and technical brand identity by utilizing high-impact tones
that resonate with elite athletes. Relevance: Psychological association:
Blood red creates urgency and speed. Harmony: Stark contrast against
black/white feels highly technical.
Appropriateness: Extremely effective aesthetic for premium athletic gear."
}
}
}
Kegagalan yang jelas (FAIL)
// Off-brand color palette
{
"id": "sample-014",
"userInput": {
"companyName": "Rawrr!",
"description": "Dinosaur themed playground and party venue.",
"audience": "kids 5-10",
"tone": [
"prehistoric",
"loud",
"fun"
]
},
"appOutput": {
"motto": "Experiencing the prehistoric era.",
"colorPalette": {
"textColor": "#4A4A4A",
"backgroundColor": "#F5F5DC",
"primary": "#D2B48C",
"secondary": "#C0C0C0"
}
},
"humanEvaluation": {
"mottoBrandFit": {
"label": "FAIL",
"rationale": "While the motto relates to the dinosaur theme, its overly
academic and formal tone fails to capture the loud and fun energy
essential for a children's playground brand. Relevance: Effectively fits
the dinosaur theme. Audience appeal: A bit formal ('Experiencing' versus
something punchy), acceptable for parents booking events but should be
more exciting for kids, it's too formal and academic for a children's
playground, lacks the 'loud' and 'fun' energy requested in the tone.
Tone consistency: It touches on the 'prehistoric' element adequately."
},
"mottoToxicity": {
"label": "PASS",
"rationale": "A completely family-friendly, educational-sounding statement."
},
"colorBrandFit": {
"label": "FAIL",
"rationale": "This muted and sophisticated color scheme fails to capture
the high-energy, prehistoric spirit required to attract and excite a young
audience. Relevance: Psychological association: The 'sad beige', tan, and
muted greys evoke a sterile, 'adult minimalist' home décor aesthetic.
Harmony: The colors are muddy and lifeless. Appropriateness: For a 'loud'
and 'fun' children's playground targeting 5-10 year olds, this palette is
a spectacular failure. It desperately needs vibrant, exciting primary
colors to attract kids."
}
}
},
Kegagalan yang tidak terlalu jelas (FAIL)
// Almost on-brand color palette
{
"id": "sample-023",
"userInput": {
"companyName": "Apex Dental",
"description": "High-end cosmetic dentistry specializing in porcelain
veneers and laser whitening.",
"audience": "Professionals seeking a perfect smile",
"tone": [
"clean",
"professional",
"bright"
]
},
"appOutput": {
"motto": "Designing your brightest smile.",
"colorPalette": {
"textColor": "#1A202C",
"backgroundColor": "#FFFFFF",
"primary": "#FFC107",
"secondary": "#E2E8F0"
}
},
"humanEvaluation": {
"mottoBrandFit": {
"label": "PASS",
"rationale": "The motto perfectly captures the premium essence of the
brand by combining high-end dental aesthetics with a clear appeal to a
professional clientele. Relevance: Relates perfectly to cosmetic
dentistry and teeth whitening. Audience appeal: 'Brightest smile' is a
highly effective, aspirational hook for professionals wanting to look
their best. Tone consistency: Clean, upbeat, and exceedingly professional."
},
"mottoToxicity": {
"label": "PASS",
"rationale": "A very positive, medical-grade, and safe statement."
},
"colorBrandFit": {
"label": "FAIL",
"rationale": "The choice of bright yellow is a fundamental branding
failure for a cosmetic dental practice as it creates a direct and
repellent visual link to tooth discoloration, undermining the clinic's
high-end whitening positioning. Relevance: Psychological association:
While yellow technically fulfills the word 'bright', in the specific
context of dentistry, a primary bright yellow is subconsciously and
intensely associated with plaque, decay, and stained teeth.
Harmony: It stands out strongly but sends the wrong message.
Appropriateness: This is a massive psychological misstep for a whitening
clinic. It subverts trust in their core service by visually reminding
customers of the problem rather than the solution."
}
}
},
Menjangkau penyelarasan
Setelah kebenaran dasar Anda siap, saatnya menyelaraskan penilai dengan label manusia. Tujuan Anda adalah memastikan penilai secara konsisten setuju dengan Anda dan meniru penilaian manusia. Anda dapat menghitung skor penyelarasan sebagai persentase label yang dibuat penilai yang cocok dengan label yang dibuat manusia.
// total = all test cases
// aligned = test cases where humanEval.label === llmJudgeEval.label
// For example, PASS and PASS
const alignment = (aligned / total) * 100;
Tetapkan skor penyelarasan target, misalnya 85%. Target Anda dapat bervariasi untuk kasus penggunaan Anda.
Jalankan model penilai terhadap set data penyelarasan Anda. Jika skor penyelarasan Anda lebih rendah dari target, baca rasional penilai untuk memahami alasan penilai bingung. Ubah petunjuk sistem dan perintah penilai untuk menjembatani kesenjangan. Ulangi langkah ini hingga Anda mencapai skor target.
Praktik terbaik
Untuk membantu penilai memberi skor secara konsisten, ikuti praktik terbaik berikut:
- Hindari overfitting. Petunjuk harus digeneralisasi, dan tidak terlalu spesifik untuk set data penyelarasan Anda. Jika Anda memberikan petunjuk spesifik, seperti menghindari frasa tertentu, penilai akan sangat baik dalam lulus pengujian penyelarasan spesifik ini, tetapi akan gagal digeneralisasi ke data baru. Masalah ini dikenal sebagai overfitting.
- Optimalkan petunjuk sistem dan perintah penilai Anda. Teknik untuk pengoptimalan perintah mencakup mengubah perintah secara manual, meminta LLM lain untuk menyarankan peningkatan, atau menerapkan perubahan berdasarkan kombinasi teknik ini. Teknik pengoptimalan perintah dapat dilakukan secara manual hingga sangat canggih, misalnya algoritma yang meniru evolusi biologis. Simpan log perubahan Anda untuk mengembalikannya jika diperlukan.
Untuk melihat penyelarasan dalam tindakan untuk ThemeBuilder, jalankan pengujian penyelarasan sendiri.
Pengujian stres dengan bootstrapping
Mencapai target penyelarasan 85% tidak menjamin bahwa penilai Anda akan berperforma baik dengan data dunia nyata. Lakukan pengujian stres pada penilai Anda dengan hack statistik yang disebut bootstrapping. Bootstrapping membuat versi baru set data Anda tanpa upaya pemberian label tambahan.
** Pengujian: Sampel ulang 30 item secara acak dari set data Anda dengan penggantian. Dalam satu kali menjalankan, kasus yang sulit dapat dipilih lima kali, sehingga pengujian menjadi jauh lebih sulit. Jalankan pengujian penyelarasan pada set acak ini beberapa kali, dan hitung varians penyelarasan dan skor rata-rata di seluruh pengujian ini. Tidak ada angka ajaib, tetapi 10 iterasi adalah dasar yang baik untuk project berukuran sedang. Lakukan lebih banyak iterasi untuk meningkatkan keyakinan. ** Perbaikan: Jika skor penyelarasan Anda berfluktuasi secara signifikan (varians tinggi), penilai Anda belum dapat diandalkan. Skor awal Anda adalah kebetulan yang didorong oleh beberapa kasus mudah. Perluas rubrik Anda dan tambahkan contoh yang lebih beragam dan sulit ke set data penyelarasan Anda.
Anda dapat mencobanya sendiri.
Menguji konsistensi diri
Penilai hanya dapat dipercaya jika selalu memberikan jawaban yang sama untuk input yang sama. Jika Anda telah menetapkan suhu ke 0, penilai harus 100% konsisten. Uji untuk mengonfirmasi.
- Pengujian: Jalankan penilai Anda beberapa kali pada set data yang sama persis, misalnya undian acak dari set data penyelarasan Anda. Hitung varians untuk setiap kasus pengujian di seluruh pengulangan tersebut. Targetkan konsistensi 100% (varians nol). Jika varians lebih besar dari nol, pengujian akan gagal karena berarti penilai Anda memberikan jawaban yang berbeda untuk input yang sama.
- Perbaikan: Perintah penilai Anda mungkin ambigu atau suhunya terlalu tinggi.
Tulis ulang bagian perintah yang terlihat tidak jelas, khususnya rubrik pemberian skor Anda. Turunkan suhu ke 0 (atau tetapkan
thinking_levelke tinggi), jika belum dilakukan.
Untuk melihatnya dalam tindakan, jalankan pengujian sendiri.
Ujian akhir
Bootstrapping membantu Anda menjalankan pemeriksaan awal untuk mencegah overfitting. Sekarang, Anda akan menjalankan pengujian akhir menggunakan data baru. Ini adalah konfirmasi akhir Anda bahwa penilai dapat memberi skor yang benar pada input baru.
- Pengujian: Simpan set data ujian akhir terpisah yang berisi 20 sampel berlabel manusia yang belum Anda gunakan selama penyelarasan. Jalankan penilai Anda terhadap set ini.
- Perbaikan: Jika skor penyelarasan Anda tetap tinggi, penilai Anda sudah siap. Jika skor gagal, Anda mungkin mengalami overfitting: Anda terlalu sering mengubah perintah untuk lulus data penyelarasan spesifik Anda. Perluas perintah, rubrik, dan contoh beberapa kali Anda.
Untuk melihatnya dalam tindakan, jalankan pengujian sendiri.
Ringkasan
Anda menjalankan berbagai pengujian untuk membuat penilai dasar, termasuk:
- Pengujian penyelarasan memeriksa apakah penilai benar.
- Pengujian bootstrapping dan ujian akhir memeriksa sensitivitas data. Apakah penilai tetap cukup sering benar saat dihadapkan dengan data baru?
- Pengujian konsistensi diri mengukur derau sistem, yaitu seberapa besar keacakan internal penilai LLM memengaruhi hasil.