Definisci l'aspetto "buono" e "cattivo" della tua applicazione AI.
Prima di progettare i test, esamina un tipico output perfetto di ThemeBuilder. Ogni processo di valutazione elabora una versione di questo oggetto:
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
Definisci l'esito positivo e negativo
Il primo passo per creare una valutazione è definire l'esito positivo e negativo. Per farlo, devi conoscere i tuoi dati e capire quali output errati è probabile che vengano visualizzati in produzione. Se disponibili, esamina i dati di produzione.
Ecco alcuni esempi di output errati per ThemeBuilder:
- Struttura dei dati non corretta:
- JSON non valido, chiavi mancanti
- I valori della tavolozza dei colori non sono esadecimali
- Il motto o alcuni colori sono stringhe vuote
- Il motto supera il limite di 6 parole.
- Motto non valido:
- Il motto non corrisponde al brand, al pubblico o al tono.
- Il motto è tossico.
- Tavolozza dei colori non valida:
- La tavolozza dei colori non corrisponde al brand, al pubblico o al tono.
- Il rapporto di contrasto tra il colore del testo e quello dello sfondo è inferiore a 4,5.
Input utente di esempio
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
Output: dati non corretti
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
Output: motto non valido
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
Output: tavolozza dei colori non valida
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
Definisci i criteri e i metodi di valutazione
Puoi definire i criteri e i metodi di valutazione in base al modo in cui un output non soddisfa le tue aspettative:
- Per testare i criteri oggettivi, crea valutazioni basate su regole (utilizza codice normale).
- Per testare i criteri soggettivi, utilizza un modello di valutazione.
| Criteri di valutazione | Metodo di valutazione |
|---|---|
| Il formato dei dati è corretto: JSON valido, tutte le chiavi presenti, colori esadecimali, nessun valore vuoto, il motto è composto da meno di sei parole | Basato su regole (oggettivo) |
| Il rapporto di contrasto tra il colore del testo e quello dello sfondo è accessibile | Basato su regole |
| Il motto corrisponde al brand, al pubblico e al tono | Modello di valutazione LLM (soggettivo) |
| La tavolozza dei colori corrisponde al brand, al pubblico e al tono | Modello di valutazione LLM |
| Il motto non è tossico | Modello di valutazione LLM |
Griglia
Non esiste un motto creativo o una tavolozza dei colori perfetti. Quindi, anziché confrontare l'output di ThemeBuilder con un risultato ideale, fornisci al modello di valutazione linee guida chiare.
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
Utilizza criteri specifici per l'attività
Oltre alle metriche specifiche per il tuo caso d'uso, utilizza criteri e metriche standard pertinenti all'attività. Ad esempio, per il riepilogo, le metriche comuni includono:
- Allineamento: il riepilogo segue istruzioni, tono o stile specifici dell'utente.
- Concisione: il riepilogo dice solo ciò che è necessario e nient'altro.
- Ricchezza: il riepilogo include tutti i punti chiave.
- Correttezza: il riepilogo è fattuale e veritiero.
- Fondatezza: ogni affermazione viene ricondotta alla fonte per evitare allucinazioni.
Valutazioni predefinite
Le soluzioni e gli strumenti di valutazione offrono valutazioni gestite o metriche predefinite che potrebbero essere adatte al tuo caso d'uso. Esplora le opzioni disponibili.