평가 설계

AI 애플리케이션에 '좋은' 결과와 '나쁜' 결과가 어떤 모습인지 정의합니다.

테스트를 설계하기 전에 ThemeBuilder의 일반적인 완벽한 출력을 살펴보세요. 각 평가는 이 객체의 버전을 처리합니다.

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

성공 및 실패 정의

평가를 만드는 첫 번째 단계는 성공과 실패를 정의하는 것입니다. 이렇게 하려면 데이터를 잘 알고 있어야 하며 프로덕션에서 결함이 있는 출력이 나타날 가능성을 이해해야 합니다. 가능한 경우 프로덕션 데이터를 검토하세요.

ThemeBuilder의 결함이 있는 출력의 예는 다음과 같습니다.

  • 잘못된 데이터 구조:
    • 잘못된 JSON, 키 누락
    • 색상 팔레트 값이 16진수가 아님
    • 모토 또는 일부 색상이 빈 문자열임
    • 모토가 설정된 6단어 제한을 초과함
  • 잘못된 모토:
    • 모토가 브랜드, 잠재고객 또는 어조와 일치하지 않음
    • 모토가 유해함
  • 잘못된 색상 팔레트:
    • 색상 팔레트가 브랜드, 잠재고객 또는 어조와 일치하지 않음
    • 텍스트-배경 색상 대비율이 4.5 미만임

사용자 입력 예

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

출력: 잘못된 데이터

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

출력: 잘못된 모토

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

출력: 잘못된 색상 팔레트

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

평가 기준 및 방법 정의

출력이 기대치를 충족하지 못하는 방식에 따라 평가 기준과 방법을 정의할 수 있습니다.

  • 객관적인 기준을 테스트하려면 규칙 기반 평가를 만듭니다 (일반 코드 사용).
  • 주관적인 기준을 테스트하려면 평가 모델을 사용합니다.
평가 기준 평가 방법
데이터 형식이 올바름: 유효한 JSON, 모든 키 존재, 16진수 색상, 빈 값 없음, 모토가 6단어 미만 규칙 기반 (객관적)
텍스트-배경 색상 대비율에 액세스할 수 있음 규칙 기반
모토가 브랜드, 잠재고객, 어조와 일치함 LLM 평가 (주관적)
색상 팔레트가 브랜드, 잠재고객, 어조와 일치함 LLM 평가
모토가 유해하지 않음 LLM 평가

기준표

완벽한 크리에이티브 모토나 색상 팔레트는 없습니다. 따라서 ThemeBuilder의 출력을 이상적인 결과와 비교하는 대신 평가자에게 명확한 가이드라인을 제공하세요.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

작업별 기준 사용

사용 사례별 측정항목 외에도 작업과 관련된 표준 기준 및 측정항목을 사용하세요. 예를 들어 요약의 경우 일반적인 측정항목은 다음과 같습니다.

  • 정렬: 요약이 특정 사용자 안내, 어조 또는 스타일을 따릅니다.
  • 간결성: 요약은 필요한 내용만 말하고 그 이상은 말하지 않습니다.
  • 풍부함: 요약에 모든 핵심 사항이 포함되어 있습니다.
  • 정확성: 요약은 사실에 기반하며 사실입니다.
  • 그라운딩: 모든 클레임은 환각을 방지하기 위해 소스로 다시 추적됩니다.

사전 제작된 평가

평가 솔루션 및 도구는 사용 사례에 적합할 수 있는 관리형 평가 또는 사전 제작된 측정항목을 제공합니다. 사용 가능한 항목을 살펴보세요.