تحديد شكل "الجيد" و "السيئ" لتطبيق الذكاء الاصطناعي:
قبل تصميم اختباراتك، اطّلِع على ناتج مثالي نموذجي من ThemeBuilder. تُعالج كل عملية تقييم إصدارًا من هذا العنصر:
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
تحديد النجاح والفشل
الخطوة الأولى لإنشاء تقييم هي تحديد معايير النجاح والفشل. ولإجراء ذلك، يجب أن تكون على دراية ببياناتك وأن تفهم النتائج الخاطئة التي من المحتمل أن تظهر في مرحلة الإنتاج. راجِع بيانات الإصدار العلني إذا كانت متاحة.
في ما يلي أمثلة على النتائج الخاطئة التي قد تنتجها أداة ThemeBuilder:
- بنية البيانات غير صحيحة:
- ملف JSON غير صالح، مفاتيح مفقودة
- قيم لوحة الألوان ليست سداسية عشرية
- الشعار أو بعض الألوان عبارة عن سلاسل فارغة
- يتجاوز الشعار الحدّ الأقصى المحدّد وهو 6 كلمات.
- شعار سيئ:
- لا يتطابق الشعار مع العلامة التجارية أو الجمهور أو الأسلوب.
- الشعار غير لائق.
- لوحة ألوان غير صالحة:
- لا تتطابق لوحة الألوان مع العلامة التجارية أو الجمهور أو الأسلوب.
- نسبة تباين لون النص مع لون الخلفية أقل من 4.5.
مثال على بيانات أدخلها المستخدم
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
الناتج: بيانات غير صحيحة
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
الناتج: شعار سيئ
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
النتيجة: لوحة ألوان غير مناسبة
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
تحديد معايير التقييم وطُرق التقييم
يمكنك تحديد معايير وأساليب التقييم استنادًا إلى كيفية عدم استيفاء الناتج لتوقعاتك، وذلك على النحو التالي:
- لاختبار المعايير الموضوعية، أنشئ عمليات تقييم مستندة إلى قواعد (استخدِم الرمز العادي).
- لاختبار المعايير الذاتية، استخدِم نموذج تقييم.
| معايير التقييم | طريقة التقييم |
|---|---|
| تنسيق البيانات صحيح: JSON صالح، وجميع المفاتيح متوفرة، والألوان سداسية عشرية، ولا توجد قيم فارغة، والشعار يتألف من أقل من ست كلمات | مستندة إلى قواعد (موضوعية) |
| نسبة تباين لون النص مع لون الخلفية يمكن الوصول إليها | تستند إلى قواعد |
| يتطابق الشعار مع العلامة التجارية والجمهور والأسلوب | حكم النموذج اللغوي الكبير (ذاتي) |
| تتطابق لوحة الألوان مع العلامة التجارية والجمهور والأسلوب | LLM judge |
| الشعار ليس غير لائق | LLM judge |
القواعد الأساسية
لا يوجد شعار إبداعي أو لوحة ألوان مثالية. لذلك، بدلاً من مقارنة نتائج ThemeBuilder بالنتيجة المثالية، قدِّم للمقيّم إرشادات واضحة.
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
استخدام معايير خاصة بالمهام
بالإضافة إلى المقاييس الخاصة بحالة الاستخدام، استخدِم المعايير والمقاييس العادية ذات الصلة بالمهمة. على سبيل المثال، في ما يتعلق بالتلخيص، تشمل المقاييس الشائعة ما يلي:
- التوافق: يتّبع الملخّص تعليمات أو أسلوبًا أو نبرة صوت معيّنة للمستخدم.
- الإيجاز: يقدّم الملخّص المعلومات الضرورية فقط.
- الشمولية: يتضمّن الملخّص جميع النقاط الرئيسية.
- الصحة: الملخّص يستند إلى حقائق ومعلومات صحيحة.
- الاستناد إلى مصادر: يتم تتبُّع كل ادّعاء والرجوع إلى المصدر لمنع الهلوسة.
التقييمات المُنشأة مسبقًا
تقدّم حلول وأدوات التقييم تقييمات مُدارة أو مقاييس مُعدّة مسبقًا قد تناسب حالة الاستخدام. استكشاف المحتوى المتاح