Bewertungen planen

Definieren Sie, wie „gut“ und „schlecht“ für Ihre KI-Anwendung aussehen.

Bevor Sie Ihre Tests entwerfen, sehen Sie sich eine typische perfekte Ausgabe von ThemeBuilder an. Bei jeder Bewertung wird eine Version dieses Objekts verarbeitet:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

Erfolg und Fehler definieren

Der erste Schritt zum Erstellen einer Bewertung besteht darin, Erfolg und Fehler zu definieren. Dazu müssen Sie mit Ihren Daten vertraut sein und wissen, welche fehlerhaften Ausgaben in der Produktion wahrscheinlich auftreten. Prüfen Sie gegebenenfalls die Produktionsdaten.

Beispiele für fehlerhafte Ausgaben für ThemeBuilder:

  • Falsche Datenstruktur:
    • Ungültiges JSON, fehlende Schlüssel
    • Die Werte der Farbpalette sind nicht hexadezimal
    • Das Motto oder einige Farben sind leere Strings
    • Das Motto ist länger als das festgelegte Limit von 6 Wörtern.
  • Schlechtes Motto:
    • Das Motto stimmt nicht mit der Marke, dem Publikum oder dem Ton überein.
    • Das Motto ist unangemessen.
  • Schlechte Farbpalette:
    • Die Farbpalette stimmt nicht mit der Marke, dem Publikum oder dem Ton überein.
    • Das Kontrastverhältnis zwischen Text und Hintergrundfarbe ist kleiner als 4,5.

Beispieleingabe

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

Ausgabe: Falsche Daten

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

Ausgabe: Schlechtes Motto

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

Ausgabe: Schlechte Farbpalette

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

Bewertungskriterien und -methoden definieren

Sie können Bewertungskriterien und -methoden definieren, je nachdem, wie eine Ausgabe Ihre Erwartungen nicht erfüllt:

  • Um die objektiven Kriterien zu testen, erstellen Sie regelbasierte Bewertungen (mit regulärem Code).
  • Um die subjektiven Kriterien zu testen, verwenden Sie ein Judge-Modell.
Bewertungskriterien Bewertungsmethode
Das Datenformat ist korrekt: Gültiges JSON, alle Schlüssel vorhanden, hexadezimale Farben, keine leeren Werte, Motto besteht aus weniger als sechs Wörtern Regelbasiert (objektiv)
Das Kontrastverhältnis zwischen Text und Hintergrundfarbe ist zugänglich Regelbasiert
Das Motto stimmt mit der Marke, dem Publikum und dem Ton überein LLM Judge (subjektiv)
Die Farbpalette stimmt mit der Marke, dem Publikum und dem Ton überein LLM Judge
Das Motto ist nicht unangemessen LLM Judge

Bewertungsschema

Es gibt kein perfektes kreatives Motto oder keine perfekte Farbpalette. Anstatt die Ausgabe von ThemeBuilder mit einem idealen Ergebnis zu vergleichen, geben Sie dem Judge klare Richtlinien.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

Aufgabenspezifische Kriterien verwenden

Verwenden Sie neben den für Ihren Anwendungsfall spezifischen Messwerten auch Standardkriterien und -messwerte, die für die Aufgabe relevant sind. Für die Zusammenfassung sind beispielsweise folgende Messwerte üblich:

  • Übereinstimmung: Die Zusammenfassung folgt bestimmten Nutzeranweisungen, einem bestimmten Ton oder Stil.
  • Prägnanz: Die Zusammenfassung enthält nur die erforderlichen Informationen.
  • Umfang: Die Zusammenfassung enthält alle wichtigen Punkte.
  • Korrektheit: Die Zusammenfassung ist sachlich und wahr.
  • Fundiertheit: Jede Behauptung wird auf die Quelle zurückgeführt, um Halluzinationen zu vermeiden.

Vordefinierte Bewertungen

Evals-Lösungen und -Tools bieten verwaltete Bewertungen oder vordefinierte Messwerte, die möglicherweise für Ihren Anwendungsfall geeignet sind. Sehen Sie sich die verfügbaren Optionen an.