Membangun hakim ahli

Siapkan hakim Anda untuk produksi.

Penilaian dasar yang Anda buat di Menyiapkan model penilaian dasar, bagian 1 dan bagian 2, didasarkan pada data berlabel sendiri. Cara ini bagus untuk menetapkan dasar pengukuran pengujian. Namun, untuk mendapatkan kualitas tingkat produksi, Anda memerlukan hakim yang berpikir seperti pakar domain, dan Anda memerlukan metrik statistik yang andal untuk mempercayainya dalam skala besar. Inilah yang akan kita bahas di sini.

Membuat set data penyelarasan dengan pakar

Menggunakan pakar manusia untuk melabeli set data penyelarasan Anda adalah kunci untuk membangun hakim LLM yang andal. Prioritaskan kualitas daripada kuantitas. Tiga puluh label berkualitas tinggi dari pakar domain jauh lebih baik daripada 300 label dari non-pakar.

Menemukan pelabel

Gunakan desainer internal dan pakar merek untuk keselarasan merek. Untuk toksisitas, Anda dapat mengandalkan pelabel yang sama, atau melakukan crowdsource label dari tim Anda berdasarkan rubrik pusat untuk memastikan pelabel memiliki kriteria penilaian yang sama.

Berapa banyak pelabel ahli?

  • Satu pakar: Cara ini cepat, dan Anda bisa memulainya, tetapi hakim Anda akan mewarisi bias orang tersebut.
  • Dua pakar: Ini bisa menjadi titik ideal anggaran yang bagus. Anda tidak dapat memutus hubungan, tetapi Anda dapat melihat ketidaksepakatan.
  • Tiga dan lebih: Ini adalah standar emas. Menggunakan angka ganjil akan memberi Anda pemecah seri otomatis untuk evaluasi biner PASS dan FAIL seperti dalam contoh kami, karena Anda dapat memilih rating mayoritas.

Untuk ThemeBuilder, anggap Anda beruntung memiliki tiga desainer merek internal yang bersedia menjadi pelabel ahli kami.

Pakar merumuskan rubrik

Sebelum memberi label, minta pakar untuk menentukan rubrik ketat dari kriteria spesifik untuk PASS. Hal ini membantu pakar Anda konsisten dalam penilaian mereka, baik secara individu maupun kolektif.

Contoh:

Criteria:
• Psychological association: Do the colors evoke the emotions associated with the desired tone?
• Harmony: Do the colors work together to create the right atmosphere?
• Appropriateness: Is the palette suitable for the company's industry?

Pakar memberi label pada data

Minta pakar Anda meninjau 30 hingga 50 sampel, menetapkan label PASS atau FAIL berdasarkan rubrik, dan menulis rationale yang menjelaskan penilaian mereka. Alasan sangat penting karena Anda akan menggunakannya untuk memecahkan masalah dan memperbaiki ketidakselarasan antara penilaian kami dan pakar kami.

Antarmuka spreadsheet untuk membantu pakar Anda menilai tema.
Aplikasi web untuk pelabel ahli. UI ini terinspirasi olehAlignEvals Eugene Yan.

Tips untuk pelabelan yang efisien

Pelabelan manual mahal. Coba teknik berikut untuk mengoptimalkan efisiensi pakar Anda:

  • Hanya verifikasi: Menggunakan LLM untuk membuat label dan alasan awal, lalu meminta pakar mengaudit dan memperbaikinya. Memverifikasi lebih cepat daripada membuat penilaian dari awal.
  • Pelabelan selektif: Minta pakar kedua mengaudit sebagian kecil pekerjaan pakar pertama. Jika mereka tidak setuju, hentikan dan perbaiki rubrik sebelum memberi label lebih banyak.
  • LLM sebagai pendapat kedua: Minta satu pakar dan satu LLM untuk memberi label pada item yang sama. Jika kesepakatan rendah, LLM memahami rubrik secara berbeda. Lakukan iterasi pada rubrik hingga selaras.
  • Pemeriksaan intra-rater: Jika Anda hanya memiliki satu pakar, minta dia untuk melabeli ulang 10% data secara acak tanpa melihat label sebelumnya seminggu kemudian. Jika mereka tidak setuju dengan diri mereka di masa lalu, rubrik Anda tidak stabil.

Berikut adalah cuplikan JSON entri set data berlabel pakar, termasuk label PASS dan FAIL pakar, serta alasan mendetailnya:

{
  "id": "sample-001",
  "userInput": {
    "companyName": "Kinetica",
    // Company description, audience and tone
  },
  "appOutput": {
    "motto": "Unlock your kinetic potential.",
    // ... Color palette
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "This motto powerfully aligns the brand's technical
        engineering with the ambitious goals of its elite athletic audience.
        Relevance: Leverages 'kinetic' to expertly link the brand to physical
        energy. Audience appeal: 'Unlock your potential' resonates perfectly
        with competitive runners. Tone consistency: Nails the required
        aggressive, high-performance marks."
    },
    // ... Human evals for colorBrandFit and mottoToxicity:
  }
}

Mencapai dan mengukur kesepakatan pakar

Rubrik Anda berfungsi sebagai petunjuk model, jadi penting untuk meluangkan waktu untuk menyempurnakannya. Jika satu desainer mendefinisikan "menyenangkan" sebagai "bahasa kreatif", sedangkan desainer lain menafsirkannya sebagai "warna cerah", LLM Anda juga akan mengalami konflik. Anda harus memperkuat rubrik untuk menghilangkan ambiguitas ini sebelum memberikannya kepada juri Anda. Dikenal sebagai reliabilitas antar-pelabel atau kecocokan antar-pelabel, kecocokan yang tinggi memastikan model penilai Anda memberikan label yang andal dan berkualitas tinggi.

Ketidaksepakatan antar-manusia adalah sinyal berguna yang memberi tahu Anda bagian mana dalam rubrik penilaian yang perlu ditingkatkan. Lakukan iterasi hingga pakar Anda menyetujui kasus PASS dan FAIL.

Hakim Anda tidak dapat lebih selaras daripada manusia yang membangunnya.

Perjanjian dasar

Salah satu cara untuk mengukur kesepakatan antara manusia, yang juga kami gunakan untuk skor kesepakatan juri manusia dalam juri dasar kami, adalah persentase seberapa sering pakar kami menyetujui.

// total = all test cases
// aligned = test cases where human1Eval.label === human2Eval.label
// (for example PASS and PASS)
const alignment = (aligned / total) * 100;

Kesepakatan di luar keberuntungan: Kappa

Kesepakatan persentase dasar cukup mudah, tetapi bisa menyesatkan. Bayangkan set data yang setengahnya PASS dan setengahnya FAIL. Jika dua pakar melempar koin, mereka akan tetap setuju 50% dari waktu hanya karena keberuntungan. Hal ini disebut batas keberuntungan.

Untuk menghitung kesepakatan secara akurat, gunakan metrik statistik yang mengukur keandalan di luar peluang murni:

  • Kappa Cohen untuk dua pelabel.
  • Kappa Fleiss untuk tiga pelabel atau lebih.

  • Uji: Usahakan skor Kappa minimal 0.61, yang merupakan standar untuk kesepakatan yang substansial. Skor 0 berarti tidak lebih baik dari tebakan acak, dan 1.0 adalah kesepakatan sempurna.

  • Perbaikan: Jika skor Kappa Anda kurang dari 0.61, rubrik Anda terlalu tidak jelas. Kelompokkan sampel yang tidak disetujui oleh pakar Anda, tinjau alasan mereka, perbarui rubrik untuk mencakup kasus ekstrem tertentu tersebut, ulangi hingga Anda mencapai 0.61. Lanjutkan ke langkah berikutnya hanya setelah pakar Anda sepakat.

Skor Kappa Tindakan
Kurang dari 0.60: Buruk Lakukan iterasi dan cari tahu alasan pakar melihat sesuatu secara berbeda. Rubrik Anda mungkin terlalu tidak jelas, jadi perbaiki.
0.610.80: Baik Tolok ukur Anda dapat diandalkan. Lanjutkan dengan rubrik ini.
0.81-1.00 Hampir sempurna Hampir tidak masuk akal. Verifikasi apakah tugas terlalu mudah atau apakah pakar terlalu menyederhanakannya.

Menciutkan label pakar Anda

Jika Anda menggunakan tiga pakar atau lebih untuk melabeli data, gabungkan suara mereka menjadi satu rating mayoritas untuk setiap sampel. Daftar ini menjadi kebenaran nyata Anda.

Mengonfigurasi hakim

Sama seperti yang Anda lakukan untuk hakim dasar, Anda perlu mengonfigurasi parameter model dan menulis perintah. Setel petunjuk sistem Anda ke persona pakar yang ketat, dan pertahankan suhu di 0 untuk konsistensi maksimum. Dalam perintah Anda, berikan rubrik persis yang digunakan pakar manusia untuk menilai data. Tambahkan beberapa contoh berlabel pakar Anda sebagai contoh few-shot untuk menunjukkan kepada penjuri cara penalaran yang tepat.

Menyelaraskan dan menguji hakim

Setelah pakar manusia setuju, saatnya melihat apakah hakim LLM setuju dengan mereka.

Dalam penyiapan dasar, kami melihat perataan (akurasi) mentah. Namun, angka tersebut saja bisa menipu. Bayangkan 90% data pengujian Anda adalah PASS. Hakim yang malas dapat menghasilkan PASS setiap saat, dan mencetak akurasi 90% sekaligus gagal menangkap satu pun motto beracun.

Menentukan kelas positif

Tentukan kelas positif Anda. Kelas positif Anda,yang juga disebut kondisi target atau peristiwa yang diminati, adalah hasil spesifik yang coba Anda deteksi, ukur, atau tandai. Pipeline evaluasi Anda bertindak sebagai penjaga: sasaran utamanya adalah menangkap dan memblokir output yang buruk.

Dengan asumsi ThemeBuilder umumnya bagus dalam membuat slogan dan palet yang sesuai merek, dan motto yang tidak pantas juga jarang terjadi, kelas positif Anda untuk semua kriteria evaluasi adalah FAIL.

Dengan mengingat hal ini:

  • Positif palsu adalah output baik yang salah ditandai sebagai FAIL.
  • Negatif palsu adalah FAIL yang terlewat.
  • Positif benar adalah FAIL yang diidentifikasi dengan benar.

Presisi dan perolehan

Dengan mempertimbangkan kelas positif, Anda kini dapat menggunakan presisi dan perolehan, yang merupakan metrik yang lebih baik daripada keselarasan mentah:

  • Presisi: saat hakim LLM mengatakan FAIL, seberapa sering ia benar? Misalnya: Jika hakim menandai motto sebagai berbahaya, seberapa sering hal itu sebenarnya benar?
  • Recall: saat manusia mengucapkan FAIL, seberapa sering hakim LLM menangkapnya? Misalnya: Dari semua output yang benar-benar berbahaya, dan dari semua motto dan palet yang benar-benar tidak sesuai merek, berapa banyak yang terdeteksi oleh juri?

Memahami biaya kesalahan + Menetapkan target skor

Tanyakan pada diri Anda: Kesalahan mana yang lebih buruk untuk aplikasi Anda?

  • Toksisitas: Toksisitas adalah masalah keamanan. Kita ingin menangkap setiap motto yang tidak baik (meminimalkan Negatif Palsu), meskipun terkadang hakim kita terlalu ketat dan menandai motto yang aman. Menandai motto yang aman (Positif Palsu) berarti penundaan kecil atau peninjauan oleh manusia. Jadi, kita menargetkan 100% Ingatan (Recall). Presisi dapat lebih rendah.
  • Kesesuaian merek: Kita perlu keseimbangan. Tidak melihat desain yang buruk dan menolak desain yang baik sama-sama merugikan. Jadi, kita menginginkan Presisi dan Perolehan yang solid.
Pengenalan pola untuk presisi dan perolehan
Oleh Walber - CC BY-SA 4.0

Skor F1

Jika perolehan meningkat, presisi sering kali menurun. Untuk toksisitas, hal itu tidak menjadi masalah karena Anda hanya tertarik pada kemampuan mengingat.

Untuk kecocokan merek, recall dan presisi sama-sama penting. Untuk menyeimbangkan kepentingan ini, Anda dapat menggunakan metrik baru: F1. Skor F1 Anda menggabungkan presisi dan perolehan menjadi satu metrik yang seimbang.

Penyelarasan jangkauan

Jalankan penilaian Anda terhadap set data berlabel pakar dan hitung skor akurasi, presisi, perolehan, dan F1 untuk setiap kriteria Anda. Menilai apakah Anda memenuhi target.

Jika tidak, kelompokkan kasus kegagalan dan baca alasan LLM. Perbarui petunjuk sistem hakim dan rubrik penilaian untuk menjembatani kesenjangan hingga metrik mencapai target Anda.

Setelah hakim Anda mencapai target, hakim Anda akan selaras.

Validasi akhir

Sekarang, kita memvalidasi hakim menggunakan langkah-langkah yang sama persis yang kita bahas dalam penyiapan hakim dasar, tetapi menerapkan metrik lanjutan baru Anda:

  • Uji beban dengan bootstrapping: Sampel ulang set data Anda secara acak dengan penggantian untuk 10 iterasi. Hitung varians skor presisi, perolehan, dan F1 di seluruh proses ini untuk membuktikan secara matematis bahwa skor tinggi Anda bukan hanya keberuntungan.
  • Uji konsistensi diri: Jalankan input yang sama persis melalui penilai beberapa kali untuk memastikan putusannya 100% stabil. Kita menginginkan varians nol di semua iterasi.
  • Berikan ujian akhir kepada hakim: Uji hakim pada set sampel baru yang dilabeli pakar sebanyak 15 hingga 20 sampel yang belum pernah dilihat sebelumnya. Hitung skor Cohen's Kappa, presisi, perolehan, dan F1 pada set tersembunyi ini. Jika metrik ini tetap berdekatan, hal ini membuktikan bahwa hakim Anda tidak terlalu cocok dengan data penyelarasan Anda dan siap untuk digeneralisasi ke dunia nyata.

Menyelaraskan kembali hakim

Setelah selesai, selamat. Anda telah membangun pipeline evaluasi yang sangat andal.

Jangan lupa untuk menyelaraskan kembali hakim Anda setiap kali Anda memperbarui LLM yang mendasarinya, atau saat set fitur aplikasi Anda berubah secara mendasar.