Tentukan seperti apa tampilan "baik" dan "buruk" untuk aplikasi AI Anda.
Sebelum mendesain pengujian, lihat output sempurna yang umum dari ThemeBuilder. Setiap evaluasi memproses versi objek ini:
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
Menentukan keberhasilan dan kegagalan
Langkah pertama untuk membuat evaluasi adalah menentukan keberhasilan dan kegagalan. Untuk melakukannya, Anda harus memahami data; memahami output yang salah yang mungkin muncul dalam produksi. Jika tersedia, tinjau data produksi.
Contoh output yang salah untuk ThemeBuilder mencakup:
- Struktur data yang salah:
- JSON tidak valid, kunci tidak ada
- Nilai palet warna bukan heksadesimal
- Slogan atau beberapa warna adalah string kosong
- Slogan lebih panjang dari batas yang ditetapkan, yaitu 6 kata.
- Slogan buruk:
- Slogan tidak cocok dengan merek, audiens, atau nada.
- Slogan bersifat toksik.
- Palet warna buruk:
- Palet warna tidak cocok dengan merek, audiens, atau nada.
- Rasio kontras warna teks ke latar belakang kurang dari 4,5.
Contoh input pengguna
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
Output: Data salah
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
Output: Slogan buruk
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
Output: Palet warna buruk
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
Menentukan kriteria dan metode evaluasi
Anda dapat menentukan kriteria dan metode evaluasi, berdasarkan bagaimana output gagal memenuhi ekspektasi Anda:
- Untuk menguji kriteria objektif, buat evaluasi berbasis aturan (gunakan kode reguler).
- Untuk menguji kriteria subjektif, gunakan model hakim.
| Kriteria evaluasi | Metode evaluasi |
|---|---|
| Format data sudah benar: JSON valid, semua kunci ada, warna heksadesimal, tidak ada nilai kosong, slogan kurang dari enam kata | Berbasis aturan (objektif) |
| Rasio kontras warna teks ke latar belakang dapat diakses | Berbasis aturan |
| Slogan cocok dengan merek, audiens, dan nada | Hakim LLM (subjektif) |
| Palet warna cocok dengan merek, audiens, dan nada | Hakim LLM |
| Slogan tidak bersifat toksik | Hakim LLM |
Rubrik
Tidak ada yang namanya slogan kreatif atau palet warna yang sempurna. Jadi, alih-alih membandingkan output ThemeBuilder dengan hasil yang ideal, berikan panduan yang jelas kepada hakim.
Rubrik memberikan framework yang konsisten untuk menilai kualitas subjektif di setiap evaluasi.// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
Menggunakan kriteria khusus tugas
Selain metrik khusus kasus penggunaan, gunakan kriteria dan metrik standar yang relevan dengan tugas. Misalnya, untuk ringkasan, metrik umum mencakup:
- Penyesuaian: Ringkasan mengikuti petunjuk, nada, atau gaya pengguna tertentu.
- Ringkas: Ringkasan hanya berisi hal yang diperlukan dan tidak lebih.
- Kekayaan: Ringkasan mencakup semua poin utama.
- Kebenaran: Ringkasan bersifat faktual dan benar.
- Dasar: Setiap klaim dilacak kembali ke sumbernya untuk mencegah halusinasi.
Evaluasi bawaan
Solusi dan alat evaluasi menawarkan evaluasi terkelola atau metrik bawaan yang mungkin sesuai dengan kasus penggunaan Anda. Jelajahi apa yang tersedia.