Définissez ce qui constitue de "bonnes" et de "mauvaises" performances pour votre application d'IA.
Avant de concevoir vos tests, examinez une sortie parfaite typique de ThemeBuilder. Chaque évaluation traite une version de cet objet :
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
Définir la réussite et l'échec
La première étape de la création d'une évaluation consiste à définir la réussite et l'échec. Pour ce faire, vous devez connaître vos données et comprendre les sorties défectueuses susceptibles d'apparaître en production. Si elles sont disponibles, examinez les données de production.
Voici quelques exemples de sorties défectueuses pour ThemeBuilder :
- Structure de données incorrecte :
- JSON non valide, clés manquantes
- Les valeurs de la palette de couleurs ne sont pas hexadécimales
- La devise ou certaines couleurs sont des chaînes vides
- La devise comporte plus de six mots, la limite que nous avons définie.
- Devise incorrecte :
- La devise ne correspond pas à la marque, à l'audience ni au ton.
- La devise est toxique.
- Palette de couleurs incorrecte :
- La palette de couleurs ne correspond pas à la marque, à l'audience ni au ton.
- Le rapport de contraste des couleurs entre le texte et l'arrière-plan est inférieur à 4,5.
Exemple d'entrée utilisateur
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
Sortie : données incorrectes
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
Sortie : devise incorrecte
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
Sortie : palette de couleurs incorrecte
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
Définir des critères et des méthodes d'évaluation
Vous pouvez définir des critères et des méthodes d'évaluation en fonction de la façon dont un résultat ne répond pas à vos attentes :
- Pour tester les critères objectifs, créez des évaluations basées sur des règles (utilisez du code standard).
- Pour tester les critères subjectifs, utilisez un modèle de juge.
| Critères d'évaluation | Méthode d'évaluation |
|---|---|
| Le format des données est correct : JSON valide, toutes les clés sont présentes, couleurs hexadécimales, aucune valeur vide, la devise comporte moins de six mots | Basée sur des règles (objective) |
| Le rapport de contraste des couleurs entre le texte et l'arrière-plan est accessible | Basée sur des règles |
| La devise correspond à la marque, à l'audience et au ton | Juge LLM (subjectif) |
| La palette de couleurs correspond à la marque, à l'audience et au ton | Juge LLM |
| La devise n'est pas toxique | Juge LLM |
Grille d'évaluation
Il n'existe pas de devise créative ni de palette de couleurs parfaites. Au lieu de comparer la sortie de ThemeBuilder à un résultat idéal, fournissez des consignes claires au juge.
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
Utiliser des critères spécifiques à une tâche
En plus des métriques spécifiques à votre cas d'utilisation, utilisez des critères et des métriques standards pertinents pour la tâche. Par exemple, pour la synthèse, les métriques courantes incluent les suivantes :
- Alignement : le résumé suit des instructions, un ton ou un style spécifiques de l'utilisateur.
- Concision : le résumé ne contient que les informations nécessaires.
- Richesse : le résumé inclut tous les points clés.
- Exactitude : le résumé est factuel et vrai.
- Fondement : chaque affirmation est rattachée à la source pour éviter les hallucinations.
Évaluations prédéfinies
Les solutions et outils d'évaluation proposent des évaluations gérées ou des métriques prédéfinies qui peuvent correspondre à votre cas d'utilisation. Découvrez ce qui est disponible.