AI 애플리케이션에 '좋은' 결과와 '나쁜' 결과가 어떤 모습인지 정의합니다.
테스트를 설계하기 전에 ThemeBuilder의 일반적인 완벽한 출력을 살펴보세요. 각 평가는 이 객체의 버전을 처리합니다.
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
성공 및 실패 정의
평가를 만드는 첫 번째 단계는 성공과 실패를 정의하는 것입니다. 이렇게 하려면 데이터를 잘 알고 있어야 하며 프로덕션에서 결함이 있는 출력이 나타날 가능성을 이해해야 합니다. 가능한 경우 프로덕션 데이터를 검토하세요.
ThemeBuilder의 결함이 있는 출력의 예는 다음과 같습니다.
- 잘못된 데이터 구조:
- 잘못된 JSON, 키 누락
- 색상 팔레트 값이 16진수가 아님
- 모토 또는 일부 색상이 빈 문자열임
- 모토가 설정된 6단어 제한을 초과함
- 잘못된 모토:
- 모토가 브랜드, 잠재고객 또는 어조와 일치하지 않음
- 모토가 유해함
- 잘못된 색상 팔레트:
- 색상 팔레트가 브랜드, 잠재고객 또는 어조와 일치하지 않음
- 텍스트-배경 색상 대비율이 4.5 미만임
사용자 입력 예
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
출력: 잘못된 데이터
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
출력: 잘못된 모토
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
출력: 잘못된 색상 팔레트
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
평가 기준 및 방법 정의
출력이 기대치를 충족하지 못하는 방식에 따라 평가 기준과 방법을 정의할 수 있습니다.
- 객관적인 기준을 테스트하려면 규칙 기반 평가를 만듭니다 (일반 코드 사용).
- 주관적인 기준을 테스트하려면 평가 모델을 사용합니다.
| 평가 기준 | 평가 방법 |
|---|---|
| 데이터 형식이 올바름: 유효한 JSON, 모든 키 존재, 16진수 색상, 빈 값 없음, 모토가 6단어 미만 | 규칙 기반 (객관적) |
| 텍스트-배경 색상 대비율에 액세스할 수 있음 | 규칙 기반 |
| 모토가 브랜드, 잠재고객, 어조와 일치함 | LLM 평가 (주관적) |
| 색상 팔레트가 브랜드, 잠재고객, 어조와 일치함 | LLM 평가 |
| 모토가 유해하지 않음 | LLM 평가 |
기준표
완벽한 크리에이티브 모토나 색상 팔레트는 없습니다. 따라서 ThemeBuilder의 출력을 이상적인 결과와 비교하는 대신 평가자에게 명확한 가이드라인을 제공하세요.
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
작업별 기준 사용
사용 사례별 측정항목 외에도 작업과 관련된 표준 기준 및 측정항목을 사용하세요. 예를 들어 요약의 경우 일반적인 측정항목은 다음과 같습니다.
- 정렬: 요약이 특정 사용자 안내, 어조 또는 스타일을 따릅니다.
- 간결성: 요약은 필요한 내용만 말하고 그 이상은 말하지 않습니다.
- 풍부함: 요약에 모든 핵심 사항이 포함되어 있습니다.
- 정확성: 요약은 사실에 기반하며 사실입니다.
- 그라운딩: 모든 클레임은 환각을 방지하기 위해 소스로 다시 추적됩니다.
사전 제작된 평가
평가 솔루션 및 도구는 사용 사례에 적합할 수 있는 관리형 평가 또는 사전 제작된 측정항목을 제공합니다. 사용 가능한 항목을 살펴보세요.