Определите, что считается «хорошим» и «плохим» в вашем приложении на основе ИИ.
Прежде чем разрабатывать тесты, взгляните на типичный пример безупречного результата работы ThemeBuilder . Каждая проверка обрабатывает версию этого объекта:
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
Определите понятия успеха и неудачи.
Первый шаг к проведению оценки — определение успеха и неудачи. Для этого необходимо хорошо разбираться в данных; понимать, какие дефекты, скорее всего, появятся в процессе производства. При наличии, проанализируйте производственные данные.
Примеры некорректных результатов работы ThemeBuilder включают:
- Некорректная структура данных:
- Неверный JSON, отсутствуют ключи.
- Значения цветовой палитры не являются шестнадцатеричными.
- Девиз или некоторые цвета — это пустые нити.
- Девиз длиннее установленного нами лимита в 6 слов.
- Плохой девиз:
- Девиз не соответствует бренду, целевой аудитории и тону.
- Этот девиз токсичен.
- Неудачная цветовая палитра:
- Цветовая палитра не соответствует бренду, целевой аудитории или тону.
- Коэффициент контрастности цвета текста и фона составляет менее 4,5.
Пример пользовательского ввода
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
Результат: Неверные данные
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
Результат: Плохой девиз
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
Результат: Неправильная цветовая палитра
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
Определить критерии и методы оценки
Вы можете определить критерии и методы оценки, исходя из того, насколько результат не соответствует вашим ожиданиям:
- Для проверки объективных критериев создайте оценки на основе правил (используйте обычный код).
- Для проверки субъективных критериев используйте модель экспертной оценки.
| Критерии оценки | Метод оценки |
|---|---|
| Формат данных корректен: корректный JSON, все ключи присутствуют, шестнадцатеричные цвета, нет пустых значений, девиз состоит менее чем из шести слов. | Основанный на правилах (объективный) |
| Доступен коэффициент контрастности цвета текста и фона. | основанный на правилах |
| Девиз соответствует бренду, целевой аудитории и тону. | Судья LLM (субъективная оценка) |
| Цветовая палитра соответствует бренду, целевой аудитории и тону. | Судья программы LLM |
| Девиз не токсичен | Судья программы LLM |
Рубрика
Не существует идеального творческого девиза или цветовой палитры. Поэтому вместо того, чтобы сравнивать результат работы ThemeBuilder с идеальным, предоставьте судье четкие указания.
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
Используйте критерии, специфичные для конкретной задачи.
Помимо метрик, специфичных для вашего конкретного случая, используйте стандартные критерии и метрики, относящиеся к задаче. Например, для суммирования данных обычно используются следующие метрики:
- Выравнивание : Краткое изложение соответствует конкретным инструкциям пользователя, тону или стилю.
- Краткое содержание : В резюме изложено только то, что необходимо, и ничего лишнего.
- Содержание : В резюме включены все ключевые моменты.
- Достоверность : Изложенная информация является фактологической и достоверной.
- Обоснованность : Каждое утверждение отслеживается до первоисточника, чтобы предотвратить галлюцинации.
Предварительно созданные оценки
Решения и инструменты для оценки предлагают как управляемые оценки, так и предварительно созданные метрики, которые могут подойти для вашего случая. Изучите доступные варианты.