ارزیابی‌های خود را طراحی کنید

تعریف کنید که «خوب» و «بد» برای برنامه هوش مصنوعی شما چگونه است.

قبل از طراحی تست‌های خود، به یک خروجی بی‌نقص معمولی از ThemeBuilder نگاه کنید. هر ارزیابی، نسخه‌ای از این شیء را پردازش می‌کند:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

تعریف موفقیت و شکست

اولین قدم برای ایجاد یک ارزیابی، تعریف موفقیت و شکست است. برای انجام این کار، باید با داده‌های خود آشنا باشید؛ بفهمید که چه خروجی‌های معیوبی احتمالاً در تولید ظاهر می‌شوند. در صورت وجود، داده‌های تولید را بررسی کنید.

نمونه‌هایی از خروجی‌های معیوب برای ThemeBuilder عبارتند از:

  • ساختار داده نادرست:
    • JSON نامعتبر، کلیدها گم شده‌اند
    • مقادیر پالت رنگ هگزادسیمال نیستند
    • شعار یا برخی رنگ‌ها رشته‌های توخالی هستند
    • شعار طولانی‌تر از محدودیت تعیین‌شده‌ی ما یعنی ۶ کلمه است.
  • شعار بد:
    • شعار با برند، مخاطب یا لحن آن مطابقت ندارد.
    • شعار سمی است.
  • پالت رنگی نامناسب:
    • پالت رنگ با برند، مخاطب یا لحن مطابقت ندارد.
    • نسبت کنتراست رنگ متن به پس‌زمینه کمتر از ۴.۵ است.

مثال ورودی کاربر

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

خروجی: داده‌های نادرست

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

خروجی: شعار بد

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

خروجی: پالت رنگ نامناسب

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

تعریف معیارها و روش‌های ارزیابی

شما می‌توانید معیارها و روش‌های ارزیابی را بر اساس اینکه چگونه یک خروجی انتظارات شما را برآورده نمی‌کند، تعریف کنید:

  • برای آزمایش معیارهای عینی، ارزیابی‌های مبتنی بر قانون ایجاد کنید (از کد معمولی استفاده کنید).
  • برای آزمودن معیارهای ذهنی، از یک مدل قضاوتی استفاده کنید.
معیارهای ارزیابی روش ارزیابی
قالب داده‌ها صحیح است: JSON معتبر، همه کلیدها موجود هستند، رنگ‌های هگزادسیمال، بدون مقادیر خالی، شعار کمتر از شش کلمه است مبتنی بر قانون (هدفمند)
نسبت کنتراست رنگ متن به پس‌زمینه قابل دسترسی است مبتنی بر قانون
شعار با برند، مخاطب و لحن آن مطابقت دارد قاضی LLM (ذهنی)
پالت رنگ با برند، مخاطب و لحن مطابقت دارد قاضی LLM
شعار سمی نیست قاضی LLM

روبریک

چیزی به عنوان یک شعار خلاقانه یا پالت رنگی بی‌نقص وجود ندارد. بنابراین به جای مقایسه خروجی ThemeBuilder با یک نتیجه ایده‌آل، به داور دستورالعمل‌های واضحی ارائه دهید.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

از معیارهای خاص برای هر وظیفه استفاده کنید

در کنار معیارهای خاص مورد استفاده خود، از معیارها و معیارهای استاندارد مربوط به کار استفاده کنید. به عنوان مثال، برای خلاصه‌سازی ، معیارهای رایج عبارتند از:

  • ترازبندی : خلاصه از دستورالعمل‌ها، لحن یا سبک خاص کاربر پیروی می‌کند.
  • خلاصه : خلاصه فقط آنچه را که لازم است بیان می‌کند و نه بیشتر.
  • غنای مطلب : خلاصه شامل تمام نکات کلیدی است.
  • صحت : خلاصه، واقعی و درست است.
  • ریشه‌یابی : هر ادعا تا منبع آن ردیابی می‌شود تا از توهم‌پراکنی جلوگیری شود.

ارزیابی‌های از پیش ساخته شده

راهکارها و ابزارهای Evals، ارزیابی‌های مدیریت‌شده یا معیارهای از پیش ساخته‌شده‌ای را ارائه می‌دهند که ممکن است با مورد استفاده شما مطابقت داشته باشد. موارد موجود را بررسی کنید.