تعریف کنید که «خوب» و «بد» برای برنامه هوش مصنوعی شما چگونه است.
قبل از طراحی تستهای خود، به یک خروجی بینقص معمولی از ThemeBuilder نگاه کنید. هر ارزیابی، نسخهای از این شیء را پردازش میکند:
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
تعریف موفقیت و شکست
اولین قدم برای ایجاد یک ارزیابی، تعریف موفقیت و شکست است. برای انجام این کار، باید با دادههای خود آشنا باشید؛ بفهمید که چه خروجیهای معیوبی احتمالاً در تولید ظاهر میشوند. در صورت وجود، دادههای تولید را بررسی کنید.
نمونههایی از خروجیهای معیوب برای ThemeBuilder عبارتند از:
- ساختار داده نادرست:
- JSON نامعتبر، کلیدها گم شدهاند
- مقادیر پالت رنگ هگزادسیمال نیستند
- شعار یا برخی رنگها رشتههای توخالی هستند
- شعار طولانیتر از محدودیت تعیینشدهی ما یعنی ۶ کلمه است.
- شعار بد:
- شعار با برند، مخاطب یا لحن آن مطابقت ندارد.
- شعار سمی است.
- پالت رنگی نامناسب:
- پالت رنگ با برند، مخاطب یا لحن مطابقت ندارد.
- نسبت کنتراست رنگ متن به پسزمینه کمتر از ۴.۵ است.
مثال ورودی کاربر
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
خروجی: دادههای نادرست
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
خروجی: شعار بد
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
خروجی: پالت رنگ نامناسب
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
تعریف معیارها و روشهای ارزیابی
شما میتوانید معیارها و روشهای ارزیابی را بر اساس اینکه چگونه یک خروجی انتظارات شما را برآورده نمیکند، تعریف کنید:
- برای آزمایش معیارهای عینی، ارزیابیهای مبتنی بر قانون ایجاد کنید (از کد معمولی استفاده کنید).
- برای آزمودن معیارهای ذهنی، از یک مدل قضاوتی استفاده کنید.
| معیارهای ارزیابی | روش ارزیابی |
|---|---|
| قالب دادهها صحیح است: JSON معتبر، همه کلیدها موجود هستند، رنگهای هگزادسیمال، بدون مقادیر خالی، شعار کمتر از شش کلمه است | مبتنی بر قانون (هدفمند) |
| نسبت کنتراست رنگ متن به پسزمینه قابل دسترسی است | مبتنی بر قانون |
| شعار با برند، مخاطب و لحن آن مطابقت دارد | قاضی LLM (ذهنی) |
| پالت رنگ با برند، مخاطب و لحن مطابقت دارد | قاضی LLM |
| شعار سمی نیست | قاضی LLM |
روبریک
چیزی به عنوان یک شعار خلاقانه یا پالت رنگی بینقص وجود ندارد. بنابراین به جای مقایسه خروجی ThemeBuilder با یک نتیجه ایدهآل، به داور دستورالعملهای واضحی ارائه دهید.
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
از معیارهای خاص برای هر وظیفه استفاده کنید
در کنار معیارهای خاص مورد استفاده خود، از معیارها و معیارهای استاندارد مربوط به کار استفاده کنید. به عنوان مثال، برای خلاصهسازی ، معیارهای رایج عبارتند از:
- ترازبندی : خلاصه از دستورالعملها، لحن یا سبک خاص کاربر پیروی میکند.
- خلاصه : خلاصه فقط آنچه را که لازم است بیان میکند و نه بیشتر.
- غنای مطلب : خلاصه شامل تمام نکات کلیدی است.
- صحت : خلاصه، واقعی و درست است.
- ریشهیابی : هر ادعا تا منبع آن ردیابی میشود تا از توهمپراکنی جلوگیری شود.
ارزیابیهای از پیش ساخته شده
راهکارها و ابزارهای Evals، ارزیابیهای مدیریتشده یا معیارهای از پیش ساختهشدهای را ارائه میدهند که ممکن است با مورد استفاده شما مطابقت داشته باشد. موارد موجود را بررسی کنید.