Değerlendirmelerinizi tasarlama

Yapay zeka uygulamanız için "iyi" ve "kötü" sonuçların nasıl göründüğünü tanımlayın.

Testlerinizi tasarlamadan önce ThemeBuilder'dan alınan tipik bir mükemmel çıktıya göz atın. Her değerlendirme, bu nesnenin bir sürümünü işler:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

Başarı ve başarısızlığı tanımlama

Değerlendirme oluşturmanın ilk adımı, başarı ve başarısızlığı tanımlamaktır. Bunu yapmak için verilerinizi iyi tanımanız ve üretimde hangi hatalı çıkışların görünebileceğini anlamanız gerekir. Mümkünse üretim verilerini inceleyin.

Tema Oluşturucu'daki hatalı çıkışlara örnek olarak şunlar verilebilir:

  • Hatalı veri yapısı:
    • Geçersiz JSON, eksik anahtarlar
    • Renk paleti değerleri onaltılık değil
    • Slogan veya bazı renkler boş dizelerdir
    • Slogan, belirlediğimiz 6 kelime sınırını aşıyor.
  • Kötü motto:
    • Slogan, marka, kitle veya üslupla eşleşmiyor.
    • Slogan toksik.
  • Hatalı renk paleti:
    • Renk paleti, marka, kitle veya üslup ile eşleşmiyor.
    • Metin-arka plan rengi kontrast oranı 4,5'ten düşük.

Örnek kullanıcı girişi

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

Çıkış: Yanlış veriler

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

Çıkış: Kötü slogan

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

Çıkış: Kötü renk paleti

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

Değerlendirme ölçütlerini ve yöntemlerini tanımlayın

Bir çıktının beklentilerinizi karşılayamama şekline göre değerlendirme ölçütleri ve yöntemleri tanımlayabilirsiniz:

  • Nesnel ölçütleri test etmek için kural tabanlı değerlendirmeler oluşturun (normal kodu kullanın).
  • Öznel ölçütleri test etmek için bir hakem modeli kullanın.
Değerlendirme ölçütleri Değerlendirme yöntemi
Veri biçimi doğru: Geçerli JSON, tüm anahtarlar mevcut, onaltılık renkler, boş değer yok, slogan altı kelimeden kısa Kural tabanlı (amaç)
Metin-arka plan rengi kontrast oranı erişilebilir olmalıdır. Kural tabanlı
Slogan, markaya, kitleye ve tona uygun olmalıdır. LLM hakemi (öznel)
Renk paleti markaya, kitleye ve tona uygun olmalıdır. LLM hakimi
Slogan zararlı değil LLM hakimi

Notlandırma anahtarı

Mükemmel bir yaratıcı slogan veya renk paleti yoktur. Bu nedenle, ThemeBuilder'ın çıktısını ideal bir sonuçla karşılaştırmak yerine hakime net yönergeler verin.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

Göreve özel ölçütler kullanma

Kullanım alanınıza özel metriklerin yanı sıra görevle alakalı standart ölçütleri ve metrikleri kullanın. Örneğin, özetleme için yaygın metrikler şunlardır:

  • Uygunluk: Özet, belirli kullanıcı talimatlarına, üsluba veya stile uygundur.
  • Kısa ve öz olma: Özet, yalnızca gereken bilgileri veriyor ve fazlasını içermiyor.
  • Zenginlik: Özet, tüm önemli noktaları içeriyor.
  • Doğruluk: Özet, gerçeklere dayanıyor ve doğru.
  • Temellendirme: Halüsinasyonları önlemek için her iddia kaynağa kadar takip edilir.

Önceden oluşturulmuş değerlendirmeler

Değerlendirme çözümleri ve araçları, kullanım alanınıza uygun olabilecek yönetilen değerlendirmeler veya önceden oluşturulmuş metrikler sunar. Kullanabileceğiniz özellikleri keşfedin.