Mendesain evaluasi Anda

Tentukan seperti apa "baik" dan "buruk" untuk aplikasi AI Anda.

Sebelum mendesain pengujian, lihat output sempurna umum dari ThemeBuilder. Setiap evaluasi memproses versi objek ini:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

Menentukan keberhasilan dan kegagalan

Langkah pertama untuk membuat evaluasi adalah menentukan keberhasilan dan kegagalan. Untuk melakukannya, Anda harus memahami data Anda; memahami output yang salah yang kemungkinan akan muncul dalam produksi. Jika tersedia, tinjau data produksi.

Contoh output yang salah untuk ThemeBuilder meliputi:

  • Struktur data salah:
    • JSON tidak valid, kunci tidak ada
    • Nilai palet warna bukan heksadesimal
    • Motto atau beberapa warna adalah string kosong
    • Motto melebihi batas 6 kata yang kami tetapkan.
  • Slogan buruk:
    • Motto tidak sesuai dengan merek, audiens, atau nuansa.
    • Slogan tersebut tidak baik.
  • Palet warna buruk:
    • Palet warna tidak sesuai dengan merek, audiens, atau gaya bahasa.
    • Rasio kontras warna teks dengan latar belakang kurang dari 4,5.

Contoh input pengguna

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

Output: Data salah

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

Output: Slogan buruk

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

Output: Palet warna buruk

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

Menentukan kriteria dan metode evaluasi

Anda dapat menentukan kriteria dan metode evaluasi, berdasarkan cara output gagal memenuhi ekspektasi Anda:

  • Untuk menguji kriteria objektif, buat evaluasi berbasis aturan (menggunakan kode reguler).
  • Untuk menguji kriteria subjektif, gunakan model penilaian.
Kriteria evaluasi Metode evaluasi
Format data sudah benar: JSON yang valid, semua kunci ada, warna heksadesimal, tidak ada nilai kosong, motto terdiri dari kurang dari enam kata Berdasarkan aturan (objektif)
Rasio kontras warna teks dengan latar belakang dapat diakses Berbasis aturan
Motto cocok dengan merek, audiens, dan gaya bahasa Penilaian LLM (subjektif)
Palet warna cocok dengan merek, audiens, dan gaya bahasa Hakim LLM
Slogan tersebut tidak negatif Hakim LLM

Rubrik

Tidak ada yang namanya motto kreatif atau palet warna yang sempurna. Jadi, alih-alih membandingkan output ThemeBuilder dengan hasil yang ideal, berikan panduan yang jelas kepada juri.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

Menggunakan kriteria khusus tugas

Selain metrik khusus kasus penggunaan, gunakan kriteria dan metrik standar yang relevan dengan tugas. Misalnya, untuk peringkasan, metrik umum meliputi:

  • Keselarasan: Ringkasan mengikuti petunjuk, gaya bahasa, atau gaya tertentu dari pengguna.
  • Singkat: Ringkasan hanya berisi informasi yang diperlukan dan tidak lebih.
  • Kualitas: Ringkasan mencakup semua poin penting.
  • Ketepatan: Ringkasan bersifat faktual dan benar.
  • Perujukan: Setiap klaim dirujuk kembali ke sumbernya untuk mencegah halusinasi.

Evaluasi bawaan

Solusi dan alat evaluasi menawarkan evaluasi terkelola atau metrik bawaan yang mungkin sesuai dengan kasus penggunaan Anda. Jelajahi apa yang tersedia.