Define cómo se ven los resultados "buenos" y "malos" para tu aplicación de IA.
Antes de diseñar tus pruebas, observa un resultado perfecto típico de ThemeBuilder. Cada evaluación procesa una versión de este objeto:
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
Define el éxito y el fracaso
El primer paso para crear una evaluación es definir el éxito y el fracaso. Para ello, debes conocer tus datos y comprender qué resultados defectuosos es probable que aparezcan en la producción. Si están disponibles, revisa los datos de producción.
Estos son algunos ejemplos de resultados defectuosos de ThemeBuilder:
- Estructura de datos incorrecta:
- JSON no válido, faltan claves
- Los valores de la paleta de colores no son hexadecimales
- El lema o algunos colores son cadenas vacías.
- El lema supera el límite establecido de 6 palabras.
- Eslogan inadecuado:
- El lema no coincide con la marca, el público o el tono.
- El lema es tóxico.
- Paleta de colores incorrecta:
- La paleta de colores no coincide con la marca, el público o el tono.
- La proporción de contraste de color entre el texto y el fondo es inferior a 4.5.
Ejemplo de entrada del usuario
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
Salida: Datos incorrectos
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
Resultado: Mal lema
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
Resultado: Mala paleta de colores
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
Define los criterios y métodos de evaluación
Puedes definir criterios y métodos de evaluación según la forma en que un resultado no cumple con tus expectativas:
- Para probar los criterios objetivos, crea evaluaciones basadas en reglas (usa código normal).
- Para probar los criterios subjetivos, usa un modelo de juez.
| Criterios de evaluación | Método de evaluación |
|---|---|
| El formato de los datos es correcto: JSON válido, todas las claves presentes, colores hexadecimales, sin valores vacíos y el lema tiene menos de seis palabras. | Basada en reglas (objetiva) |
| La relación de contraste de color entre el texto y el fondo es accesible | Aplicación |
| El lema coincide con la marca, el público y el tono. | Juez de LLM (subjetivo) |
| La paleta de colores coincide con la marca, el público y el tono. | Juez de LLM |
| El lema no es tóxico | Juez de LLM |
Rúbrica
No existe el lema creativo o la paleta de colores perfectos. Por lo tanto, en lugar de comparar el resultado de ThemeBuilder con un resultado ideal, proporciona al juez lineamientos claros.
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
Usa criterios específicos para la tarea
Además de las métricas específicas de tu caso de uso, utiliza criterios y métricas estándares relevantes para la tarea. Por ejemplo, para la resumir, las métricas comunes incluyen las siguientes:
- Alineación: El resumen sigue instrucciones, tono o estilo específicos del usuario.
- Concisión: El resumen dice solo lo que se necesita y nada más.
- Riqueza: El resumen incluye todos los puntos clave.
- Corrección: El resumen es fáctico y verdadero.
- Fundamentación: Cada afirmación se remonta a la fuente para evitar alucinaciones.
Evaluaciones compiladas previamente
Las soluciones y herramientas de Evals ofrecen evaluaciones administradas o métricas prediseñadas que pueden adaptarse a tu caso de uso. Explora las opciones disponibles.