إعداد نموذج أساسي للحكم (الجزء 2)

أكمِل عملية إعداد نموذج التقييم الأساسي لبدء التقييمات الذاتية.

مواءمة القاضي واختباره

لديك قاضٍ أولي، ولكن لا يمكنك الوثوق به بعد. لا يكون الحكم جاهزًا إلا عندما يتوافق باستمرار مع الحكم البشري.

إنشاء مجموعة بيانات محاذاة

لمعايرة الحكَم، تحتاج إلى مجموعة بيانات محاذاة. هذه مجموعة صغيرة عالية الجودة من المدخلات والمخرجات التي قيّمها يدويًا فريق من المقيّمين. تعمل مجموعة البيانات هذه كـ بيانات أساسية. ستستخدمها للتحقّق من أنّ منطق الحكم يتوافق باستمرار مع توقعاتك.

يجب أن تحتوي مجموعة بيانات المحاذاة على 30 إلى 50 زوجًا من المدخلات والمخرجات. المجموعة كبيرة بما يكفي لتغطية بعض الحالات الحدّية، ولكنّها صغيرة بما يكفي لتتمكّن من تصنيفها في فترة زمنية قصيرة.

في مثال ThemeBuilder، يبدو الإدخال في مجموعة بيانات المحاذاة على النحو التالي (الإدخال والإخراج والتصنيف البشري):

{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "audience": "kids 5-10",
    "tone": ["prehistoric", "loud", "fun"]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era."
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While on-theme, this motto is too formal for kids.
        It fails to capture the required 'loud' and 'fun' energy."
    }
  }
}

لإنشاء مدخلات ومخرجات، يمكنك استخراج البيانات من سجلّات الإنتاج إذا كانت متاحة، أو إنشاء البيانات يدويًا، أو استخدام نموذج لغوي كبير (بيانات اصطناعية)، أو البدء ببضع عيّنات منتقاة يدويًا والطلب من نموذج لغوي كبير زيادة حجم مجموعة البيانات.

بعد أن تصبح المدخلات والمخرجات جاهزة، استخدِم قواعد التقييم لتصنيف المخرجات على أنّها PASS أو FAIL مع فريقك. سيصبح هذا المصدر الأساسي.

تأكَّد من أنّ مجموعة بيانات المواءمة تتضمّن أمثلة PASS وأمثلة FAIL بدرجات صعوبة متفاوتة، مثل:

  • ‫10 أمثلة على حالات المسار السعيد التي يجب أن يصنّفها الحكَم على أنّها PASS
  • ‫20 مثالاً يجب أن يصنّفها القاضي على أنّها FAIL:
    • الأخطاء الواضحة، مثل شعار سام جدًا أو لا صلة له بالعلامة التجارية
    • الأخطاء الطفيفة، مثل شعار مثالي من الناحية النحوية ولكنه رسمي جدًا بالنسبة إلى علامة تجارية مرحة، أو شعار يتناسب جزئيًا فقط مع الأسلوب.

يجب أن يكون نموذجك اللغوي الكبير (LLM) حارسًا للبوابة. يمنحك ربطها بمجموعة بيانات تحتوي على حالات تعذّر أكثر من حالات النجاح فرصًا أكبر لتعديل قواعد التقييم بهدف رصد حالات التعذّر، ما يؤدي في النهاية إلى تحسين أداء الحكم في رصد حالات التعذّر.

بعد أن تصبح مجموعة بيانات المحاذاة جاهزة، من المفترض أن تبدو على النحو التالي:

حالات المسار الصحيح (PASS)

// Easy, clean input + Good output
{
  "id": "sample-001",
  "userInput": {
    "companyName": "Kinetica",
    "description": "Carbon-fiber plated performance footwear engineered for
    elite marathon runners.",
    "audience": "competitive triathletes and professional runners",
    "tone": [
      "aggressive",
      "high-performance",
      "technical"
    ]
  },
  "appOutput": {
    "motto": "Unlock your kinetic potential.",
    "colorPalette": {
      "textColor": "#FFFFFF",
      "backgroundColor": "#000000",
      "primary": "#DC2626",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "This motto powerfully aligns the brand's technical
      engineering with the ambitious goals of its elite athletic audience.
      Relevance: Uses 'kinetic' to expertly link the brand to physical
      energy. Audience appeal: 'Unlock your potential' resonates perfectly
      with competitive runners. Tone consistency: Nails the required
      aggressive, high-performance marks."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "Perfectly clean and motivational. No offensive or
      exclusionary language."
    },
    "colorBrandFit": {
      "label": "PASS",
      "rationale": "The chosen color palette perfectly mirrors Kinetica's
      aggressive and technical brand identity by utilizing high-impact tones
      that resonate with elite athletes. Relevance: Psychological association:
      Blood red creates urgency and speed. Harmony: Stark contrast against
      black/white feels highly technical.
      Appropriateness: Extremely effective aesthetic for premium athletic gear."
    }
  }
}

حالات الفشل الواضحة (FAIL)

// Off-brand color palette
{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "description": "Dinosaur themed playground and party venue.",
    "audience": "kids 5-10",
    "tone": [
      "prehistoric",
      "loud",
      "fun"
    ]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era.",
    "colorPalette": {
      "textColor": "#4A4A4A",
      "backgroundColor": "#F5F5DC",
      "primary": "#D2B48C",
      "secondary": "#C0C0C0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While the motto relates to the dinosaur theme, its overly
      academic and formal tone fails to capture the loud and fun energy
      essential for a children's playground brand. Relevance: Effectively fits
      the dinosaur theme. Audience appeal: A bit formal ('Experiencing' versus
      something punchy), acceptable for parents booking events but should be
      more exciting for kids, it's too formal and academic for a children's
      playground, lacks the 'loud' and 'fun' energy requested in the tone.
      Tone consistency: It touches on the 'prehistoric' element adequately."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A completely family-friendly, educational-sounding statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "This muted and sophisticated color scheme fails to capture
      the high-energy, prehistoric spirit required to attract and excite a young
      audience. Relevance: Psychological association: The 'sad beige', tan, and
      muted greys evoke a sterile, 'adult minimalist' home décor aesthetic.
      Harmony: The colors are muddy and lifeless. Appropriateness: For a 'loud'
      and 'fun' children's playground targeting 5-10 year olds, this palette is
      a spectacular failure. It desperately needs vibrant, exciting primary
      colors to attract kids."
    }
  }
},

حالات الفشل الطفيف (FAIL)

// Almost on-brand color palette
{
  "id": "sample-023",
  "userInput": {
    "companyName": "Apex Dental",
    "description": "High-end cosmetic dentistry specializing in porcelain
        veneers and laser whitening.",
    "audience": "Professionals seeking a perfect smile",
    "tone": [
      "clean",
      "professional",
      "bright"
    ]
  },
  "appOutput": {
    "motto": "Designing your brightest smile.",
    "colorPalette": {
      "textColor": "#1A202C",
      "backgroundColor": "#FFFFFF",
      "primary": "#FFC107",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "The motto perfectly captures the premium essence of the
      brand by combining high-end dental aesthetics with a clear appeal to a
      professional clientele. Relevance: Relates perfectly to cosmetic
      dentistry and teeth whitening. Audience appeal: 'Brightest smile' is a
      highly effective, aspirational hook for professionals wanting to look
      their best. Tone consistency: Clean, upbeat, and exceedingly professional."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A very positive, medical-grade, and safe statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "The choice of bright yellow is a fundamental branding
      failure for a cosmetic dental practice as it creates a direct and
      repellent visual link to tooth discoloration, undermining the clinic's
      high-end whitening positioning. Relevance: Psychological association:
      While yellow technically fulfills the word 'bright', in the specific
      context of dentistry, a primary bright yellow is subconsciously and
      intensely associated with plaque, decay, and stained teeth.
      Harmony: It stands out strongly but sends the wrong message.
      Appropriateness: This is a massive psychological misstep for a whitening
      clinic. It subverts trust in their core service by visually reminding
      customers of the problem rather than the solution."
    }
  }
},

توافق مدى الوصول

بعد أن تصبح البيانات الأساسية جاهزة، حان الوقت لمطابقة المقارِن مع التصنيفات التي يقدّمها المقيّمون. هدفكم هو التأكّد من أنّ القاضي يوافق على تقييماتكم باستمرار ويحاكي التقييمات التي يجريها الإنسان. يمكنك حساب نتيجة المطابقة كنسبة مئوية من التصنيفات التي أنشأها الحكّام والتي تتطابق مع التصنيفات التي أنشأها المستخدمون.

// total = all test cases
// aligned = test cases where humanEval.label === llmJudgeEval.label
// For example, PASS and PASS
const alignment = (aligned / total) * 100;

اضبط درجة تطابق مستهدَفة، مثلاً %85. يمكن أن يختلف هدفك حسب حالة الاستخدام.

شغِّل نموذج التقييم على مجموعة بيانات التوافق. إذا كانت نتيجة التطابق أقل من النتيجة المستهدَفة، اطّلِع على الأساس المنطقي الذي استند إليه الحكَم لمعرفة سبب الخطأ. عدِّل تعليمات النظام وطلب التقييم لسدّ الثغرات. كرِّر ذلك إلى أن تصل إلى النتيجة المستهدَفة.

أفضل الممارسات

لمساعدة القاضي في تسجيل النتائج بشكل متّسق، اتّبِع أفضل الممارسات التالية:

  • تجنُّب الإفراط في التكيّف: يجب أن تكون التعليمات عامة وليست محددة جدًا لمجموعة بيانات المحاذاة. إذا قدّمت تعليمات محدّدة، مثل تجنُّب عبارات معيّنة، سيحقق الحكم نتائج رائعة في اختبار التوافق المحدّد هذا، ولكنّه سيفشل في التعميم على البيانات الجديدة. تُعرف هذه المشكلة باسم المطابقة بشكل مفرط.
  • تحسين تعليمات النظام وطلب التقييم: تشمل أساليب تحسين الطلبات تعديل الطلبات يدويًا، أو الطلب من نموذج لغوي كبير آخر اقتراح تحسينات، أو تطبيق تغييرات استنادًا إلى مجموعة من هذه الأساليب. يمكن أن تتراوح تقنيات تحسين الطلبات من يدوية إلى متقدّمة جدًا، مثل الخوارزميات التي تحاكي التطور البيولوجي. احتفِظ بسجلّ للتغييرات التي أجريتها لتتمكّن من التراجع عنها عند الحاجة.

لمشاهدة عملية المحاذاة في ThemeBuilder، أجرِ اختبار المحاذاة بنفسك.

مثال على اختبار التوافق

اختبار الإجهاد باستخدام التمهيد

لا يضمن تحقيق هدف التوافق بنسبة% 85 أن يحقّق المقيم أداءً جيدًا مع البيانات الواقعية. اختبِر قدرة الحكم على الصمود باستخدام خدعة إحصائية تُعرف باسم التمهيد. تنشئ عملية Bootstrapping إصدارات جديدة من مجموعة البيانات بدون الحاجة إلى بذل جهد إضافي في تصنيفها.

** الاختبار: إعادة أخذ عيّنة عشوائية من 30 عنصرًا من مجموعة البيانات مع الاستبدال في إحدى عمليات التشغيل، قد يتم اختيار حالة صعبة خمس مرات، ما يجعل الاختبار أكثر صعوبة. نفِّذ اختبار المحاذاة على هذه المجموعات العشوائية عدة مرات، واحتسِب متوسط المحاذاة وتباين النتائج في عمليات التنفيذ هذه. لا يوجد عدد سحري، ولكن 10 تكرارات هي أساس جيد للمشاريع المتوسطة الحجم. كرِّر العملية عدة مرات للحصول على دقة أعلى. ** الحلّ: إذا كانت درجة التطابق تتأرجح بشكل كبير (تباين كبير)، يعني ذلك أنّ حكمك غير موثوق به بعد. كانت نتيجتك الأولية نتيجة حظّ بسبب بعض الحالات السهلة. وسِّع نطاق قواعد التقييم وأضِف المزيد من الأمثلة المتنوعة والصعبة إلى مجموعة بيانات المطابقة.

تمثيل مرئي لاختبار bootstrap. بما أنّ الكائنات يتم أخذ عينات فرعية منها مع الاستبدال، قد يتم تمثيل بعض الفئات بشكل مفرط (الكرات الصفراء في عينات bootstrap 1 و2)، بينما قد يتم تمثيل فئات أخرى بشكل ناقص (الكرات الحمراء في عينات bootstrap 1 و2) أو حتى قد لا يتم تمثيلها (الكرات الخضراء في عينة bootstrap 3). يمكنك الاطّلاع على الشكل العلمي الأصلي من ResearchGate.

يمكنك تجربتها بنفسك.

مثال على اختبار التمهيد.

اختبار الاتساق الذاتي

لا يمكن الوثوق بالحكم إلا إذا كان يعطي دائمًا الإجابة نفسها للطلب نفسه. إذا ضبطت درجة العشوائية على 0، يجب أن تكون النتيجة متطابقة بنسبة %100. اختبِرها للتأكّد من عملها.

  • الاختبار: شغِّل برنامج التقييم عدة مرات على مجموعة البيانات نفسها، مثلاً سحب عشوائي من مجموعة بيانات المواءمة. احسب التباين لكل حالة اختبار على مستوى عمليات التكرار هذه. احرص على تحقيق اتّساق بنسبة% 100 (أي عدم وجود تباين). إذا كان التباين أكبر من صفر، يعني ذلك أنّ الاختبار يتعذّر إجراؤه لأنّ القاضي يقدّم إجابات مختلفة للطلب نفسه.
  • الحل: قد يكون طلبك من القاضي غامضًا أو درجة العشوائية مرتفعة جدًا. أعِد كتابة أجزاء الطلب التي تبدو غير واضحة، خاصةً معايير التقييم. اخفض درجة الحرارة إلى 0 (أو اضبط thinking_level على "مرتفع")، إذا لم يسبق لك إجراء ذلك.

للاطّلاع على مثال عملي، أجرِ الاختبار بنفسك.

ناتج اختبار اتساق الحكم في المحطة الطرفية
في هذا المثال، اختبرنا 6 عيّنات لكل مقياس من مقاييسنا الثلاثة (مستوى السمية في الشعار ومدى ملاءمة الشعار للعلامة التجارية ومدى ملاءمة اللون للعلامة التجارية). كانت النتائج مستقرة بشكل كامل تقريبًا، ولكن كانت بعض العيّنات تتضمّن نتائج غير متّسقة.

الاختبار النهائي

ساعدتك عملية التمهيد في إجراء فحص أولي لمنع الإفراط في التكيّف. الآن، ستُجري اختبارًا نهائيًا باستخدام بيانات جديدة. هذا هو التأكيد النهائي على أنّ القاضي يمكنه تسجيل النتائج الجديدة بشكل صحيح.

  • الاختبار: احتفظ بمجموعة بيانات منفصلة خاصة بالامتحان النهائي تضم 20 عينة مصنّفة يدويًا لم تستخدمها أثناء عملية المواءمة. نفِّذ برنامج التقييم على هذه المجموعة.
  • الحلّ: إذا بقيت درجة التطابق عالية، يعني ذلك أنّ القاضي جاهز. إذا انخفضت النتيجة بشكل كبير، من المحتمل أنّك أفرطت في التكيّف مع البيانات: لقد عدّلت طلبك عدة مرات لتجاوز بيانات التوافق المحدّدة. وسِّع نطاق الطلب وقواعد التقييم وأمثلة التعلّم من عدد قليل من اللقطات.

للاطّلاع على مثال عملي، أجرِ الاختبار بنفسك.

ملخّص

أجريت اختبارات مختلفة لإنشاء برنامج التقييم الأساسي، بما في ذلك:

  • يتحقّق اختبار التطابق مما إذا كان الحكم صحيحًا.
  • التحقّق من حساسية البيانات في اختبارات التشغيل التمهيدي والاختبار النهائي هل يبقى الحكم صحيحًا في كثير من الأحيان عند مواجهة بيانات جديدة؟
  • يقيس اختبار الاتساق الذاتي تشويش النظام، أي مقدار تأثير العشوائية الداخلية لدى الحكَم من نموذج اللغة الكبير في النتائج.