Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mendesain evaluasi Anda

Tentukan seperti apa tampilan "baik" dan "buruk" untuk aplikasi AI Anda.

Maud Nalpas

Sebelum mendesain pengujian, lihat output sempurna yang umum dari ThemeBuilder. Setiap evaluasi memproses versi objek ini:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

Menentukan keberhasilan dan kegagalan

Langkah pertama untuk membuat evaluasi adalah menentukan keberhasilan dan kegagalan. Untuk melakukannya, Anda harus memahami data; memahami output yang salah yang mungkin muncul dalam produksi. Jika tersedia, tinjau data produksi.

Contoh output yang salah untuk ThemeBuilder mencakup:

Struktur data yang salah:
- JSON tidak valid, kunci tidak ada
- Nilai palet warna bukan heksadesimal
- Slogan atau beberapa warna adalah string kosong
- Slogan lebih panjang dari batas yang ditetapkan, yaitu 6 kata.
Slogan buruk:
- Slogan tidak cocok dengan merek, audiens, atau nada.
- Slogan bersifat toksik.
Palet warna buruk:
- Palet warna tidak cocok dengan merek, audiens, atau nada.
- Rasio kontras warna teks ke latar belakang kurang dari 4,5.

Contoh input pengguna

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

Output: Data salah

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

Output: Slogan buruk

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

Output: Palet warna buruk

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

Menentukan kriteria dan metode evaluasi

Anda dapat menentukan kriteria dan metode evaluasi, berdasarkan bagaimana output gagal memenuhi ekspektasi Anda:

Untuk menguji kriteria objektif, buat evaluasi berbasis aturan (gunakan kode reguler).
Untuk menguji kriteria subjektif, gunakan model hakim.

Kriteria evaluasi	Metode evaluasi
Format data sudah benar: JSON valid, semua kunci ada, warna heksadesimal, tidak ada nilai kosong, slogan kurang dari enam kata	Berbasis aturan (objektif)
Rasio kontras warna teks ke latar belakang dapat diakses	Berbasis aturan
Slogan cocok dengan merek, audiens, dan nada	Hakim LLM (subjektif)
Palet warna cocok dengan merek, audiens, dan nada	Hakim LLM
Slogan tidak bersifat toksik	Hakim LLM

Rubrik

Tidak ada yang namanya slogan kreatif atau palet warna yang sempurna. Jadi, alih-alih membandingkan output ThemeBuilder dengan hasil yang ideal, berikan panduan yang jelas kepada hakim.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

Menggunakan kriteria khusus tugas

Selain metrik khusus kasus penggunaan, gunakan kriteria dan metrik standar yang relevan dengan tugas. Misalnya, untuk ringkasan, metrik umum mencakup:

Penyesuaian: Ringkasan mengikuti petunjuk, nada, atau gaya pengguna tertentu.
Ringkas: Ringkasan hanya berisi hal yang diperlukan dan tidak lebih.
Kekayaan: Ringkasan mencakup semua poin utama.
Kebenaran: Ringkasan bersifat faktual dan benar.
Dasar: Setiap klaim dilacak kembali ke sumbernya untuk mencegah halusinasi.

Evaluasi bawaan

Solusi dan alat evaluasi menawarkan evaluasi terkelola atau metrik bawaan yang mungkin sesuai dengan kasus penggunaan Anda. Jelajahi apa yang tersedia.

Sebelumnya

Model mental

Berikutnya

Evaluasi berbasis aturan