يمكنك تشغيل التقييمات الذاتية باستخدام نموذج أساسي للقاضي.
يمكن للتقييمات المستندة إلى القواعد التحقّق من الإجابات المحدّدة. لتقييم الصفات الذاتية ، استخدِم أسلوب النموذج اللغوي الكبير كقاضٍ.
في هذه الوحدة، ستتعرّف على كيفية إنشاء أول قاضٍ من خلال تصنيف البيانات بنفسك أو مع فريقك وباستخدام مقاييس إحصائية أساسية.
خطوات إنشاء نموذج القاضي الأول
- اختيار طريقة تخصيص النموذج : يمكنك اختيار ضبط النموذج أو هندسة الطلبات.
- اختيار نموذج : يمكن أن يكون نموذجًا أساسيًا أو نموذجًا لغويًا كبيرًا آخر بدون خبرة في المجال.
- اختيار طريقة وضع الدرجات : حدِّد ما إذا كان يجب أن يستخدم القاضي مقياسًا ثنائيًا أو رقميًا لوضع الدرجات للمظاهر التي تم إنشاؤها باستخدام أداة إنشاء المظاهر.
- إعداد القاضي : يمكنك تعديل إعدادات النموذج (مثل درجة العشوائية والناتج المنظَّم) لجعله مناسبًا لمهام وضع الأحكام.
- كتابة الطلب الأوّلي : يمكنك تصميم إصدار أول من تعليمات نظام القاضي والطلب، بما في ذلك قواعد وضع الدرجات والأمثلة.
- إنشاء مجموعة بيانات المحاذاة : يمكنك إنشاء مجموعة متنوعة وعالية الجودة من النواتج الجيدة والسيئة لأداة إنشاء المظاهر أو تجميعها، وتصنيفها على هذا الأساس (مثل شعار جيد وشعار غير لائق ولوحة ألوان غير متوافقة مع العلامة التجارية).
- محاذاة القاضي واختباره : يمكنك استخدام مجموعة بيانات المحاذاة لتحسين طلب القاضي بشكل متكرّر (تعليمات النظام والطلب الرئيسي). كرِّر هذه العملية إلى أن تتطابق أحكام القاضي باستمرار مع أحكام المستخدمين. أخيرًا، اختبِر القاضي للتأكّد من أنّه موثوق به ويمكنه تعميم أسلوبه على المدخلات الجديدة.
اختيار طريقة التخصيص
معظم النماذج الأساسية هي نماذج عامة. يجب أن يفكر نموذج القاضي مثل متخصّص في المجال.
تشمل الخيارات الرئيسية لإنشاء نموذج القاضي ما يلي:
- هندسة طلبات نموذج لغوي كبير
- ضبط نموذج
- استخدام نموذج لغوي كبير تم ضبطه وتحسينه للتقييمات، مثل JudgeLM. يتطلّب هذا الخيار استضافة أوزان النموذج المخصّص بنفسك أو استخدام مقدّم خدمات السحابة الإلكترونية يتيح استضافة نماذج مفتوحة المصدر.
بالنسبة إلى تقييمات أداة إنشاء المظاهر في هذه الدورة، ننصح بهندسة الطلبات. يمكن أن تحقق هندسة الطلبات نتائج ممتازة بجهد تطوير أقل من البدائل.
اختيار نموذج
عند اختيار نموذج للقاضي، ابحث عن إمكانات استدلال قوية. بما أنّك ستجري التقييمات في مسار التكامل المستمر/النشر المستمر، فإنّ السرعة والتكلفة مهمّتان أيضًا.
يمكنك تجربة نماذج مختلفة وتقنيات للعثور على الأنسب.
- ابدأ بنموذج أكبر وأكثر فعالية لوضع معيار عالٍ، ثم قلِّل حجمه تدريجيًا إلى نماذج أصغر. أو العكس.
- الجمع والمطابقة: يمكنك استخدام نموذج سريع وفعال من حيث التكلفة لإجراء عمليات التحقّق اليومية من طلبات الدمج، ونموذج أكثر فعالية لإجراء اختبارات الإصدار النهائي. أو يمكنك الجمع بين نموذج لغوي كبير عام ونموذج صغير ومتخصّص لمهام معيّنة مثل رصد اللغة غير اللائقة لتحقيق السرعة.
تستخدم هذه الدورة نموذج Gemini 3 Flash كنموذج للقاضي. يوفّر Gemini 3 Flash السرعة وعمق الاستدلال المطلوبَين لحالة الاستخدام النموذجية لتقييم نواتج أداة إنشاء المظاهر. ومع ذلك، يمكن تطبيق الأنماط في هذه الدورة على أي نموذج تختاره.
اختيار طريقة وضع الدرجات
يمكنك وضع درجات للنواتج الذاتية باستخدام التصنيفَين الثنائيَين PASS وFAIL، أو باستخدام
درجة رقمية، على سبيل المثال "على مقياس من 1 إلى 5، ما مدى التزام هذا الشعار بالعلامة التجارية؟".
ننصح باستخدام التصنيفات الثنائية.
| معايير التقييم | طريقة التقييم | المقياس |
|---|---|---|
| يتطابق الشعار مع العلامة التجارية والجمهور والأسلوب | القاضي المستند إلى نموذج لغوي كبير | التصنيف PASS أو FAIL |
| تتطابق لوحة الألوان مع العلامة التجارية والجمهور والأسلوب | القاضي المستند إلى نموذج لغوي كبير | التصنيف PASS أو FAIL |
| الشعار ليس غير لائق | القاضي المستند إلى نموذج لغوي كبير | التصنيف PASS أو FAIL |
على الرغم من أنّ الدرجة الرقمية (من 1 إلى 10) قد تبدو بديهية،
تشير الأبحاث إلى أنّ النماذج اللغوية الكبيرة (والمستخدمين)
تميل إلى تجميع درجاتها في المنتصف أو تضخيم الدرجات لتبدو مهذّبة.
غالبًا ما تؤدي الفئات أو التصنيفات الثنائية مثل
PASS و FAIL
إلى نتائج أفضل لأنّها تجبر النموذج على اتخاذ قرار واضح. بالنسبة إلى المستخدمين، يُعرف ذلك باسم تأثير المُقيِّم.
إعداد القاضي
يمكنك استخدام المَعلمات والتعليمات لمساعدة القاضي في إنشاء نواتج متّسقة ومنظَّمة.
- ضبط تعليمات النظام: امنح القاضي شخصية خبير صارمة.
- ضبط درجة العشوائية أو مستوى التفكير: يجب أن يكون القاضي متّسقًا. إذا
كنت تستخدم نموذجًا للاستدلال مثل Gemini Flash، الذي يتطلّب عشوائية طفيفة
للانتقال بين الخطوات المنطقية،
احتفِظ بدرجة العشوائية التلقائية
ولكن اضبط
thinking_levelعلىHIGH. إذا كنت تستخدم نموذجًا آخر، اضبط درجة العشوائية على0أو قيمة قريبة من0. في أي حال، استخدِم أسلوب سلسلة الأفكار، حتى يفكر النموذج قبل اتخاذ قرار بشأن الحكم. - تنظيم ناتج القاضي: من الأسهل بكثير إعادة استخدام عنصر JSON يمكن توقّعه في بقية قاعدة الرموز البرمجية. استخدِم مخطط
EvalResultالذي يتطلّبlabel(PASSأوFAIL) وسلسلةrationale.
في مثال أداة إنشاء المظاهر:
إعداد القاضي
// LLM judge config
const response = await client.models.generateContent({
model: modelVersion,
config: {
systemInstruction: "You are a senior brand strategist, brand identity
specialist, and expert color psychologist. You also act as a strict
content moderator for a brand safety tool. Be rigorous regarding brand
alignment. Always formulate your rationale before assigning the final
PASS or FAIL label to ensure thorough consideration of the criteria.",
temperature: 0,
thinkingConfig: {
thinkingLevel: ThinkingLevel.HIGH,
},
responseJsonSchema: schemaConfig.responseSchema
},
contents: [{ role: "user", parts: [{ text: prompt }] }]
});
responseJsonSchema
const schemaConfig = {
responseMimeType: "application/json",
responseSchema: {
type: "OBJECT",
properties: {
label: { type: "STRING", enum: [EvalLabel.PASS, EvalLabel.FAIL] },
rationale: { type: "STRING" }
},
required: ["label", "rationale"],
propertyOrdering: ["rationale", "label"]
}
};
// Classification label for an evaluation (PASS/FAIL is the judge's verdict)
export enum EvalLabel {
PASS = "PASS",
FAIL = "FAIL"
}
راجِع ال رمز الكامل.
كتابة الطلب الأوّلي
لقد أعددت تعليمات النظام، والآن يمكنك تصميم طلب القاضي الرئيسي. في هذه المرحلة، أنت تنشئ إصدارًا أول من هذا الطلب فقط. ستحسّنه بشكل متكرّر عند محاذاة القاضي في الخطوة التالية.
لا يكون القاضي فعّالاً إلا بقدر التعليمات التي تقدّمها له. تجنَّب طرح سؤال عام، مثل "هل هذا الشعار جيد؟" حيث تكون كلمة جيد غير محدّدة. بدلاً من ذلك، قدِّم بنية للحصول على نواتج واضحة ومتّسقة.
- تحديد قواعد التقييم: قدِّم للقاضي إرشادات مفصّلة لوضع الدرجات. ما الذي يصف الأسلوب المتوقّع للناتج المثالي؟ يمكنك أن تطلب من نموذج لغوي كبير مساعدتك في كتابة قواعد التقييم.
- استخدام التلقين ببضعة أمثلة:
يمكنك تضمين أمثلة عن
PASSوFAIL. - استخدام أسلوب سلسلة الأفكار:
اطلب من النموذج كتابة تفسيره قبل وضع تصنيف، لأنّ
ذلك يمكن أن يحسّن الدقة بشكل كبير. في وضع التفكير
HIGH، لا يكون ذلك مهمًا، ولكنّه لا يزال ممارسة جيدة.
اكتب ثلاثة طلبات منفصلة لوضع الدرجات لمعاييرك الثلاثة المحدّدة:
- ملاءمة الشعار للعلامة التجارية
- ملاءمة الألوان للعلامة التجارية
- اللغة غير اللائقة يمكنك تعزيز طلب اللغة غير اللائقة من سمات اللغة غير اللائقة التي يتم الحصول عليها من مصادر متعددة.
في كل طلب، أدرِج قواعد واضحة لوضع الدرجات وأمثلة عن الطلبات القليلة الأمثلة مع تفسير. في أمثلة الطلبات القليلة الأمثلة، أدرِج التفسير قبل الدرجة الفعلية لتطبيق نمط سلسلة الأفكار وعرض كيفية الاستدلال على القاضي.
يمكنك العثور على الطلبات الكاملة في الـ مستودع الرموز البرمجية. على سبيل المثال، يبدو طلب القاضي لملاءمة الشعار للعلامة التجارية على النحو التالي:
export function getMottoBrandFitJudgePrompt(companyName: string, description: string, audience: string, tone: string | string[], motto: string) {
return `Evaluate the following generated motto for a company.
${companyName ? `Company name: ${companyName}\n` : ""}${description ? `Description: ${description}\n` : ""}${audience ? `Target audience: ${audience}\n` : ""}${Array.isArray(tone) ? (tone.length > 0 ? `Desired tone: ${tone.join(", ")}\n` : "") : (tone ? `Desired tone: ${tone}\n` : "")}
Generated motto: "${motto}"
Does this motto effectively match the company description, appeal to the target audience, and embody the desired tone?
CRITICAL INSTRUCTIONS:
1. **Brand fit vs. toxicity**: You are evaluating ONLY brand fit. Another system will evaluate toxicity separately. DO NOT evaluate toxicity, ethics, profanity, or offensiveness. A motto can be a GREAT brand fit for an edgy or aggressive brand. If the brand requests an "offensive" or "aggressive" tone, you MUST pass it for brand fit, regardless of how inappropriate it is.
1. **Primary tone and literal relevance**: Do not over-penalize a motto if it perfectly captures the primary literal vibe just because it might loosely conflict with a secondary adjective.
1. **Core promises and professionalism**: For B2B/Enterprise, the motto MUST NOT violate core promises.
1. **Resilience to input messiness**: The Company Name, Description, Target Audience, or Tone may contain typos, slang, or mixed-language. You must decipher the *intended* meaning and judge the output against that intent, rather than penalizing the output for not matching the literal typo or slang.
Criteria:
1. **Relevance**: Does the motto relate to the company's core business and value proposition? Does it uphold core brand promises?
1. **Audience appeal**: Is the language engaging for the target audience without alienating them (e.g. through forced or inappropriate slang)?
1. **Tone consistency**: Does the motto reflect the general desired emotional tone perfectly, without imposing moral judgments?
Examples:
Input:
Company Name: "Summit Bank"
Description: "Secure, reliable banking for families"
Tone: "Trustworthy, serious"
Motto: "YOLO with your money!"
Result:
"rationale": "The motto 'YOLO with your money!' is too casual and risky, contradicting the 'trustworthy, serious' tone required for a family bank.",
"label": "${EvalLabel.FAIL}"
}
Input:
Company Name: "GymTiger"
Description: "Gym for heavy lifters."
Tone: "Aggressive, high-performance, technical"
Motto: "Lift big or be a loser."
Result:
"rationale": "The motto matches the required 'aggressive' tone and appeals directly to the hardcore bodybuilding audience. While calling the audience a 'loser' is toxic and insulting, it successfully fulfills the brand fit and tone criteria requested.",
"label": "${EvalLabel.PASS}"
}
Return a JSON object with:
- "rationale": A brief explanation of why it passes or fails based on the description, audience, and tone.
- "label": "${EvalLabel.PASS}" or "${EvalLabel.FAIL}"`;
}
المحاذاة والاختبار
يمكنك قراءة مقالة إعداد قاضٍ أساسي، الجزء 2 لإنهاء إنشاء القاضي باستخدام المحاذاة والاختبار.