Concevoir vos évaluations

Définissez ce qui constitue une "bonne" et une "mauvaise" réponse pour votre application d'IA.

Avant de concevoir vos tests, examinez un exemple de résultat parfait de ThemeBuilder. Chaque évaluation traite une version de cet objet :

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

Définir la réussite et l'échec

La première étape pour créer une évaluation consiste à définir ce qui constitue une réussite et un échec. Pour ce faire, vous devez bien connaître vos données et comprendre quels résultats défectueux sont susceptibles d'apparaître en production. Si elles sont disponibles, examinez les données de production.

Voici quelques exemples de résultats défectueux pour ThemeBuilder :

  • Structure de données incorrecte :
    • JSON non valide, clés manquantes
    • Les valeurs de la palette de couleurs ne sont pas hexadécimales
    • La devise ou certaines couleurs sont des chaînes vides
    • La devise dépasse la limite de six mots que nous avons définie.
  • Slogan incorrect :
    • La devise ne correspond pas à la marque, à l'audience ni au ton.
    • La devise est toxique.
  • Palette de couleurs incorrecte :
    • La palette de couleurs ne correspond pas à la marque, à l'audience ni au ton.
    • Le rapport de contraste entre les couleurs de l'arrière-plan et celles du texte est inférieur à 4.5.

Exemple d'entrée utilisateur

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

Sortie : données incorrectes

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

Sortie : Mauvaise devise

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

Résultat : mauvaise palette de couleurs

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

Définir des critères et des méthodes d'évaluation

Vous pouvez définir des critères et des méthodes d'évaluation en fonction de la façon dont un résultat ne répond pas à vos attentes :

  • Pour tester les critères objectifs, créez des évaluations basées sur des règles (utilisez du code standard).
  • Pour tester les critères subjectifs, utilisez un modèle de juge.
Critères d'évaluation Méthode d'évaluation
Le format des données est correct : JSON valide, toutes les clés sont présentes, couleurs hexadécimales, aucune valeur vide, devise de moins de six mots Basée sur des règles (objective)
Le rapport de contraste entre les couleurs du texte et de l'arrière-plan est accessible. Appli basée
La devise correspond à la marque, à l'audience et au ton Juge LLM (subjectif)
La palette de couleurs correspond à la marque, à l'audience et au ton Juge LLM
La devise n'est pas toxique Juge LLM

Grille d'évaluation

Il n'existe pas de devise ni de palette de couleurs parfaites pour une création. Au lieu de comparer la sortie de ThemeBuilder à un résultat idéal, fournissez des consignes claires au juge.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

Utiliser des critères spécifiques à la tâche

En plus des métriques spécifiques à votre cas d'utilisation, utilisez des critères et des métriques standards adaptés à la tâche. Par exemple, pour la summarization, les métriques courantes incluent :

  • Alignement : le résumé respecte les instructions, le ton ou le style spécifiques de l'utilisateur.
  • Concision : le résumé ne contient que les informations nécessaires.
  • Richesse : le résumé inclut tous les points clés.
  • Exactitude : le résumé est factuel et vrai.
  • Ancrage : chaque affirmation est rattachée à la source pour éviter les hallucinations.

Évaluations prédéfinies

Les solutions et outils d'évaluation proposent des évaluations gérées ou des métriques prédéfinies qui peuvent correspondre à votre cas d'utilisation. Découvrez les options disponibles.