定義 AI 應用程式的「良好」和「不良」狀態。
設計測試前,請先查看 ThemeBuilder 的完美輸出結果。每次評估都會處理這個物件的版本:
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
定義成功和失敗
建立評估作業的第一步,就是定義成功和失敗。 為此,您必須熟悉資料,瞭解生產環境中可能出現的錯誤輸出內容。如有可能,請查看生產資料。
ThemeBuilder 的錯誤輸出示例包括:
- 資料結構有誤:
- JSON 無效,缺少鍵
- 調色盤值不是十六進位
- 座右銘或部分顏色為空字串
- 座右銘長度超過 6 個字的上限。
- 無效的座右銘:
- 口號與品牌、目標對象或語氣不符。
- 這句座右銘有毒。
- 調色盤無效:
- 調色盤與品牌、目標對象或語氣不符。
- 文字與背景的色彩對比度低於 4.5。
使用者輸入內容範例
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
輸出:資料不正確
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
輸出:不當座右銘
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
輸出內容:調色盤不佳
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
定義評估標準和方法
您可以根據輸出內容未達到預期效果的原因,定義評估標準和方法:
- 如要測試客觀條件,請建立以規則為準的評估 (使用一般程式碼)。
- 如要測試主觀條件,請使用評估模型。
| 評估標準 | 評估方法 |
|---|---|
| 資料格式正確:有效的 JSON、所有鍵皆存在、十六進位顏色、沒有空值、座右銘少於六個字 | 以規則為準 (目標) |
| 文字與背景的色彩對比度符合無障礙標準 | 規則式 |
| 口號符合品牌、目標對象和語氣 | LLM 評估員 (主觀) |
| 調色盤符合品牌、目標對象和語氣 | LLM 評估員 |
| 口號沒有惡意 | LLM 評估員 |
評分量表
沒有所謂完美的廣告素材座右銘或色調。因此,請為評審提供明確的指引,而非比較 ThemeBuilder 的輸出內容與理想結果。
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
使用特定工作專屬的條件
除了特定用途的指標外,請使用與工作相關的標準條件和指標。舉例來說,在摘要方面,常見的指標包括:
- 對齊:摘要會遵循特定使用者指示、語氣或風格。
- 簡潔:摘要只提供必要資訊,不會多加贅述。
- 豐富度:摘要包含所有重點。
- 正確性:摘要內容符合事實。
- 根據事實:每項聲明都會追溯至來源,避免出現錯覺。
預先建構的評估
評估解決方案和工具提供管理式評估或預建指標,可能適合您的用途。 探索可用的功能。