Разработайте свою систему оценок.

Определите, что считается «хорошим» и «плохим» в вашем приложении на основе ИИ.

Прежде чем разрабатывать тесты, взгляните на типичный пример безупречного результата работы ThemeBuilder . Каждая проверка обрабатывает версию этого объекта:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

Определите понятия успеха и неудачи.

Первый шаг к проведению оценки — определение успеха и неудачи. Для этого необходимо хорошо разбираться в данных; понимать, какие дефекты, скорее всего, появятся в процессе производства. При наличии, проанализируйте производственные данные.

Примеры некорректных результатов работы ThemeBuilder включают:

  • Некорректная структура данных:
    • Неверный JSON, отсутствуют ключи.
    • Значения цветовой палитры не являются шестнадцатеричными.
    • Девиз или некоторые цвета — это пустые нити.
    • Девиз длиннее установленного нами лимита в 6 слов.
  • Плохой девиз:
    • Девиз не соответствует бренду, целевой аудитории и тону.
    • Этот девиз токсичен.
  • Неудачная цветовая палитра:
    • Цветовая палитра не соответствует бренду, целевой аудитории или тону.
    • Коэффициент контрастности цвета текста и фона составляет менее 4,5.

Пример пользовательского ввода

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

Результат: Неверные данные

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

Результат: Плохой девиз

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

Результат: Неправильная цветовая палитра

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

Определить критерии и методы оценки

Вы можете определить критерии и методы оценки, исходя из того, насколько результат не соответствует вашим ожиданиям:

  • Для проверки объективных критериев создайте оценки на основе правил (используйте обычный код).
  • Для проверки субъективных критериев используйте модель экспертной оценки.
Критерии оценки Метод оценки
Формат данных корректен: корректный JSON, все ключи присутствуют, шестнадцатеричные цвета, нет пустых значений, девиз состоит менее чем из шести слов. Основанный на правилах (объективный)
Доступен коэффициент контрастности цвета текста и фона. основанный на правилах
Девиз соответствует бренду, целевой аудитории и тону. Судья LLM (субъективная оценка)
Цветовая палитра соответствует бренду, целевой аудитории и тону. Судья программы LLM
Девиз не токсичен Судья программы LLM

Рубрика

Не существует идеального творческого девиза или цветовой палитры. Поэтому вместо того, чтобы сравнивать результат работы ThemeBuilder с идеальным, предоставьте судье четкие указания.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

Используйте критерии, специфичные для конкретной задачи.

Помимо метрик, специфичных для вашего конкретного случая, используйте стандартные критерии и метрики, относящиеся к задаче. Например, для суммирования данных обычно используются следующие метрики:

  • Выравнивание : Краткое изложение соответствует конкретным инструкциям пользователя, тону или стилю.
  • Краткое содержание : В резюме изложено только то, что необходимо, и ничего лишнего.
  • Содержание : В резюме включены все ключевые моменты.
  • Достоверность : Изложенная информация является фактологической и достоверной.
  • Обоснованность : Каждое утверждение отслеживается до первоисточника, чтобы предотвратить галлюцинации.

Предварительно созданные оценки

Решения и инструменты для оценки предлагают как управляемые оценки, так и предварительно созданные метрики, которые могут подойти для вашего случая. Изучите доступные варианты.