Progettare le valutazioni

Definisci l'aspetto "buono" e "cattivo" della tua applicazione AI.

Prima di progettare i test, esamina un tipico output perfetto di ThemeBuilder. Ogni processo di valutazione elabora una versione di questo oggetto:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

Definisci l'esito positivo e negativo

Il primo passo per creare una valutazione è definire l'esito positivo e negativo. Per farlo, devi conoscere i tuoi dati e capire quali output errati è probabile che vengano visualizzati in produzione. Se disponibili, esamina i dati di produzione.

Ecco alcuni esempi di output errati per ThemeBuilder:

  • Struttura dei dati non corretta:
    • JSON non valido, chiavi mancanti
    • I valori della tavolozza dei colori non sono esadecimali
    • Il motto o alcuni colori sono stringhe vuote
    • Il motto supera il limite di 6 parole.
  • Motto non valido:
    • Il motto non corrisponde al brand, al pubblico o al tono.
    • Il motto è tossico.
  • Tavolozza dei colori non valida:
    • La tavolozza dei colori non corrisponde al brand, al pubblico o al tono.
    • Il rapporto di contrasto tra il colore del testo e quello dello sfondo è inferiore a 4,5.

Input utente di esempio

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

Output: dati non corretti

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

Output: motto non valido

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

Output: tavolozza dei colori non valida

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

Definisci i criteri e i metodi di valutazione

Puoi definire i criteri e i metodi di valutazione in base al modo in cui un output non soddisfa le tue aspettative:

  • Per testare i criteri oggettivi, crea valutazioni basate su regole (utilizza codice normale).
  • Per testare i criteri soggettivi, utilizza un modello di valutazione.
Criteri di valutazione Metodo di valutazione
Il formato dei dati è corretto: JSON valido, tutte le chiavi presenti, colori esadecimali, nessun valore vuoto, il motto è composto da meno di sei parole Basato su regole (oggettivo)
Il rapporto di contrasto tra il colore del testo e quello dello sfondo è accessibile Basato su regole
Il motto corrisponde al brand, al pubblico e al tono Modello di valutazione LLM (soggettivo)
La tavolozza dei colori corrisponde al brand, al pubblico e al tono Modello di valutazione LLM
Il motto non è tossico Modello di valutazione LLM

Griglia

Non esiste un motto creativo o una tavolozza dei colori perfetti. Quindi, anziché confrontare l'output di ThemeBuilder con un risultato ideale, fornisci al modello di valutazione linee guida chiare.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

Utilizza criteri specifici per l'attività

Oltre alle metriche specifiche per il tuo caso d'uso, utilizza criteri e metriche standard pertinenti all'attività. Ad esempio, per il riepilogo, le metriche comuni includono:

  • Allineamento: il riepilogo segue istruzioni, tono o stile specifici dell'utente.
  • Concisione: il riepilogo dice solo ciò che è necessario e nient'altro.
  • Ricchezza: il riepilogo include tutti i punti chiave.
  • Correttezza: il riepilogo è fattuale e veritiero.
  • Fondatezza: ogni affermazione viene ricondotta alla fonte per evitare allucinazioni.

Valutazioni predefinite

Le soluzioni e gli strumenti di valutazione offrono valutazioni gestite o metriche predefinite che potrebbero essere adatte al tuo caso d'uso. Esplora le opzioni disponibili.