Définissez ce qui constitue une "bonne" et une "mauvaise" réponse pour votre application d'IA.
Avant de concevoir vos tests, examinez un exemple de résultat parfait de ThemeBuilder. Chaque évaluation traite une version de cet objet :
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
Définir la réussite et l'échec
La première étape pour créer une évaluation consiste à définir ce qui constitue une réussite et un échec. Pour ce faire, vous devez bien connaître vos données et comprendre quels résultats défectueux sont susceptibles d'apparaître en production. Si elles sont disponibles, examinez les données de production.
Voici quelques exemples de résultats défectueux pour ThemeBuilder :
- Structure de données incorrecte :
- JSON non valide, clés manquantes
- Les valeurs de la palette de couleurs ne sont pas hexadécimales
- La devise ou certaines couleurs sont des chaînes vides
- La devise dépasse la limite de six mots que nous avons définie.
- Slogan incorrect :
- La devise ne correspond pas à la marque, à l'audience ni au ton.
- La devise est toxique.
- Palette de couleurs incorrecte :
- La palette de couleurs ne correspond pas à la marque, à l'audience ni au ton.
- Le rapport de contraste entre les couleurs de l'arrière-plan et celles du texte est inférieur à 4.5.
Exemple d'entrée utilisateur
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
Sortie : données incorrectes
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
Sortie : Mauvaise devise
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
Résultat : mauvaise palette de couleurs
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
Définir des critères et des méthodes d'évaluation
Vous pouvez définir des critères et des méthodes d'évaluation en fonction de la façon dont un résultat ne répond pas à vos attentes :
- Pour tester les critères objectifs, créez des évaluations basées sur des règles (utilisez du code standard).
- Pour tester les critères subjectifs, utilisez un modèle de juge.
| Critères d'évaluation | Méthode d'évaluation |
|---|---|
| Le format des données est correct : JSON valide, toutes les clés sont présentes, couleurs hexadécimales, aucune valeur vide, devise de moins de six mots | Basée sur des règles (objective) |
| Le rapport de contraste entre les couleurs du texte et de l'arrière-plan est accessible. | Appli basée |
| La devise correspond à la marque, à l'audience et au ton | Juge LLM (subjectif) |
| La palette de couleurs correspond à la marque, à l'audience et au ton | Juge LLM |
| La devise n'est pas toxique | Juge LLM |
Grille d'évaluation
Il n'existe pas de devise ni de palette de couleurs parfaites pour une création. Au lieu de comparer la sortie de ThemeBuilder à un résultat idéal, fournissez des consignes claires au juge.
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
Utiliser des critères spécifiques à la tâche
En plus des métriques spécifiques à votre cas d'utilisation, utilisez des critères et des métriques standards adaptés à la tâche. Par exemple, pour la summarization, les métriques courantes incluent :
- Alignement : le résumé respecte les instructions, le ton ou le style spécifiques de l'utilisateur.
- Concision : le résumé ne contient que les informations nécessaires.
- Richesse : le résumé inclut tous les points clés.
- Exactitude : le résumé est factuel et vrai.
- Ancrage : chaque affirmation est rattachée à la source pour éviter les hallucinations.
Évaluations prédéfinies
Les solutions et outils d'évaluation proposent des évaluations gérées ou des métriques prédéfinies qui peuvent correspondre à votre cas d'utilisation. Découvrez les options disponibles.