Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

إعداد نموذج أساسي للحكم (الجزء 2)

أكملوا إعداد نموذج المحكّم الأساسي لتشغيل التقييمات الذاتية.

Maud Nalpas

مواءمة المحكّم واختباره

لديكم محكّم أولي، ولكن لا يمكنكم الوثوق به بعد. لا يكون المحكّم جاهزًا إلا عندما يتّفق باستمرار مع التقييم البشري.

إنشاء مجموعة بيانات المواءمة

لمعايرة المحكّم، تحتاجون إلى مجموعة بيانات المواءمة. وهي مجموعة صغيرة عالية الجودة من المدخلات والمخرجات التي قيّمها المستخدمون يدويًا. تعمل مجموعة البيانات هذه كـ بيانات أساسية. وتستخدمونها للتحقّق من أنّ منطق المحكّم يتوافق باستمرار مع توقعاتكم.

يجب أن تحتوي مجموعة بيانات المواءمة على 30 إلى 50 زوجًا من المدخلات والمخرجات. المجموعة كبيرة بما يكفي لتغطية بعض الحالات الهامشية، ولكنها صغيرة بما يكفي لتصنيفها في فترة زمنية قصيرة.

في مثال ThemeBuilder، يبدو الإدخال في مجموعة بيانات المواءمة على النحو التالي (الإدخال والمخرجات والتصنيف البشري):

{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "audience": "kids 5-10",
    "tone": ["prehistoric", "loud", "fun"]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era."
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While on-theme, this motto is too formal for kids.
        It fails to capture the required 'loud' and 'fun' energy."
    }
  }
}

لإنشاء المدخلات والمخرجات، يمكنكم استخراجها من سجلات الإنتاج (إذا كانت متاحة) أو إنشاء البيانات يدويًا أو استخدام نموذج لغوي كبير (بيانات اصطناعية)، أو البدء ببضع عيّنات منتقاة يدويًا وطلب نموذج لغوي كبير لزيادة مجموعة البيانات.

بعد أن تصبح المدخلات والمخرجات جاهزة، استخدِموا قواعد التقييم لتصنيف المخرجات على أنّها PASS أو FAIL مع فريقكم. سيصبح هذا التصنيف بياناتكم الأساسية.

تأكّدوا من أنّ مجموعة بيانات المواءمة تتضمّن أمثلة PASS وأمثلة FAIL بدرجات صعوبة متفاوتة، على سبيل المثال:

10 أمثلة على حالات المسار الناجح التي يصنّفها المحكّم على أنّها PASS.
20 مثالاً على الحالات التي يصنّفها المحكّم على أنّها FAIL:
- حالات الفشل الواضحة، على سبيل المثال، شعار سامّ جدًا أو غير مرتبط بالعلامة التجارية على الإطلاق.
- حالات الفشل الطفيفة، على سبيل المثال، شعار مثالي من الناحية النحوية ولكنه رسمي جدًا بالنسبة إلى علامة تجارية مرحة، أو لا يتناسب إلا جزئيًا مع النبرة.

المحكّم المستند إلى نموذج لغوي كبير (LLM) هو حاجز حماية. إنّ مواءمته مع مجموعة بيانات تحتوي على حالات فشل أكثر من الحالات الناجحة يوفّر فرصًا أكبر لتعديل قواعد التقييم لرصد حالات الفشل، ويحسّن في النهاية قدرة المحكّم على رصد حالات الفشل.

بعد أن تصبح مجموعة بيانات المواءمة جاهزة، ستبدو على النحو التالي:

حالات المسار الناجح (ناجحة)

// Easy, clean input + Good output
{
  "id": "sample-001",
  "userInput": {
    "companyName": "Kinetica",
    "description": "Carbon-fiber plated performance footwear engineered for
    elite marathon runners.",
    "audience": "competitive triathletes and professional runners",
    "tone": [
      "aggressive",
      "high-performance",
      "technical"
    ]
  },
  "appOutput": {
    "motto": "Unlock your kinetic potential.",
    "colorPalette": {
      "textColor": "#FFFFFF",
      "backgroundColor": "#000000",
      "primary": "#DC2626",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "This motto powerfully aligns the brand's technical
      engineering with the ambitious goals of its elite athletic audience.
      Relevance: Uses 'kinetic' to expertly link the brand to physical
      energy. Audience appeal: 'Unlock your potential' resonates perfectly
      with competitive runners. Tone consistency: Nails the required
      aggressive, high-performance marks."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "Perfectly clean and motivational. No offensive or
      exclusionary language."
    },
    "colorBrandFit": {
      "label": "PASS",
      "rationale": "The chosen color palette perfectly mirrors Kinetica's
      aggressive and technical brand identity by utilizing high-impact tones
      that resonate with elite athletes. Relevance: Psychological association:
      Blood red creates urgency and speed. Harmony: Stark contrast against
      black/white feels highly technical.
      Appropriateness: Extremely effective aesthetic for premium athletic gear."
    }
  }
}

حالات الفشل الواضحة (غير ناجحة)

// Off-brand color palette
{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "description": "Dinosaur themed playground and party venue.",
    "audience": "kids 5-10",
    "tone": [
      "prehistoric",
      "loud",
      "fun"
    ]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era.",
    "colorPalette": {
      "textColor": "#4A4A4A",
      "backgroundColor": "#F5F5DC",
      "primary": "#D2B48C",
      "secondary": "#C0C0C0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While the motto relates to the dinosaur theme, its overly
      academic and formal tone fails to capture the loud and fun energy
      essential for a children's playground brand. Relevance: Effectively fits
      the dinosaur theme. Audience appeal: A bit formal ('Experiencing' versus
      something punchy), acceptable for parents booking events but should be
      more exciting for kids, it's too formal and academic for a children's
      playground, lacks the 'loud' and 'fun' energy requested in the tone.
      Tone consistency: It touches on the 'prehistoric' element adequately."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A completely family-friendly, educational-sounding statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "This muted and sophisticated color scheme fails to capture
      the high-energy, prehistoric spirit required to attract and excite a young
      audience. Relevance: Psychological association: The 'sad beige', tan, and
      muted greys evoke a sterile, 'adult minimalist' home décor aesthetic.
      Harmony: The colors are muddy and lifeless. Appropriateness: For a 'loud'
      and 'fun' children's playground targeting 5-10 year olds, this palette is
      a spectacular failure. It desperately needs vibrant, exciting primary
      colors to attract kids."
    }
  }
},

حالات الفشل الطفيفة (غير ناجحة)

// Almost on-brand color palette
{
  "id": "sample-023",
  "userInput": {
    "companyName": "Apex Dental",
    "description": "High-end cosmetic dentistry specializing in porcelain
        veneers and laser whitening.",
    "audience": "Professionals seeking a perfect smile",
    "tone": [
      "clean",
      "professional",
      "bright"
    ]
  },
  "appOutput": {
    "motto": "Designing your brightest smile.",
    "colorPalette": {
      "textColor": "#1A202C",
      "backgroundColor": "#FFFFFF",
      "primary": "#FFC107",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "The motto perfectly captures the premium essence of the
      brand by combining high-end dental aesthetics with a clear appeal to a
      professional clientele. Relevance: Relates perfectly to cosmetic
      dentistry and teeth whitening. Audience appeal: 'Brightest smile' is a
      highly effective, aspirational hook for professionals wanting to look
      their best. Tone consistency: Clean, upbeat, and exceedingly professional."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A very positive, medical-grade, and safe statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "The choice of bright yellow is a fundamental branding
      failure for a cosmetic dental practice as it creates a direct and
      repellent visual link to tooth discoloration, undermining the clinic's
      high-end whitening positioning. Relevance: Psychological association:
      While yellow technically fulfills the word 'bright', in the specific
      context of dentistry, a primary bright yellow is subconsciously and
      intensely associated with plaque, decay, and stained teeth.
      Harmony: It stands out strongly but sends the wrong message.
      Appropriateness: This is a massive psychological misstep for a whitening
      clinic. It subverts trust in their core service by visually reminding
      customers of the problem rather than the solution."
    }
  }
},

مواءمة مدى الوصول

بعد أن تصبح البيانات الأساسية جاهزة، واءِموا المحكّم مع التصنيفات البشرية. هدفكم هو التأكّد من أنّ المحكّم يتّفق معكم باستمرار ويحاكي التقييم البشري. يمكنكم حساب نتيجة المواءمة كنسبة مئوية للتصنيفات التي أنشأها المحكّم والتي تتطابق مع التصنيفات التي أنشأها المستخدمون.

// total = all test cases
// aligned = test cases where humanEval.label === llmJudgeEval.label
// For example, PASS and PASS
const alignment = (aligned / total) * 100;

اضبطوا نتيجة مواءمة مستهدَفة، على سبيل المثال 85%. يمكن أن يختلف هدفكم حسب حالة الاستخدام.

شغِّلوا نموذج المحكّم على مجموعة بيانات المواءمة. إذا كانت نتيجة المواءمة أقل من هدفكم، اقرأوا منطق المحكّم لفهم سبب تقديمه تصنيفًا غير صحيح. عدِّلوا تعليمات النظام وطلب المحكّم لسدّ الثغرات. كرِّروا هذه الخطوة إلى أن تصلوا إلى النتيجة المستهدَفة.

أفضل الممارسات

لمساعدة المحكّم في تسجيل النتائج باستمرار، اتّبِعوا أفضل الممارسات التالية:

تجنُّب الملاءمة الزائدة : عمِّموا التعليمات وتجنَّبوا جعلها خاصة جدًا بمجموعة بيانات المواءمة. إذا قدّمتم تعليمات محدّدة، مثل تجنُّب عبارات معيّنة، يجتاز المحكّم اختبار المواءمة المحدّد هذا بفعالية، ولكنه يفشل في تعميمها على البيانات الجديدة. تُعرف هذه المشكلة باسم الملاءمة الزائدة.
تحسين تعليمات النظام وطلب المحكّم : تشمل تقنيات تحسين الطلب تعديل الطلبات يدويًا أو الطلب من نموذج لغوي كبير آخر اقتراح تحسينات أو تطبيق تغييرات استنادًا إلى مجموعة من هذه التقنيات. يمكن أن تتراوح تقنيات تحسين الطلب من التقنيات اليدوية إلى التقنيات المتقدّمة جدًا ، على سبيل المثال ، الخوارزميات التي تحاكي التطور البيولوجي. احتفظوا بسجلّ للتغييرات التي تجرونها للرجوع إليها إذا لزم الأمر.

للاطّلاع على المواءمة قيد التنفيذ في ThemeBuilder، شغِّلوا اختبار المواءمة.

ناتج الاختبار الطرفي لاختبار المحاذاة الذي يعرض معدلات النجاح/الفشل — مثال على اختبار المواءمة

اختبار التحمّل باستخدام أسلوب التجميع

إنّ الوصول إلى هدف المواءمة بنسبة 85% لا يضمن أداء المحكّم بشكل جيد مع البيانات الواقعية. اختبروا تحمّل المحكّم باستخدام تقنية إحصائية تُعرف باسم أسلوب التجميع. ينشئ أسلوب التجميع إصدارات جديدة من مجموعة البيانات بدون بذل جهد إضافي في التصنيف.

الاختبار: أعيدوا بشكل عشوائي أخذ عيّنة من 30 عنصرًا من مجموعة البيانات مع الإعادة. في عملية تشغيل واحدة، قد يتم اختيار حالة صعبة خمس مرات، ما يجعل الاختبار أصعب بكثير. شغِّلوا اختبار المواءمة على هذه المجموعات العشوائية عدة مرات، واحسبوا متوسط المواءمة وتباين النتيجة في عمليات التشغيل هذه. لا يوجد رقم محدّد، ولكن 10 عمليات تكرار هي خط أساس مفيد للمشاريع المتوسّطة الحجم. أجروا المزيد من عمليات التكرار لزيادة الثقة.
الإصلاح: إذا كانت نتيجة المواءمة تتقلب بشكل كبير (تباين عالٍ)، فهذا يعني أنّ المحكّم غير موثوق به بعد. كانت النتيجة الأولية مصادفة ناتجة عن بضع حالات سهلة. وسِّعوا قواعد التقييم وأضيفوا أمثلة أكثر تنوعًا وصعوبة إلى مجموعة بيانات المواءمة.

تمثيل مرئي لاختبار bootstrap، يوضّح كيف يمكن أن يؤدي إعادة أخذ العينات مع الاستبدال إلى تمثيل بعض فئات البيانات بشكل مفرط أو ناقص. — بما أنّه يتم أخذ عيّنات فرعية من العناصر مع الإعادة، قد يتم تمثيل بعض الفئات بشكل مفرط (الكرات الصفراء في عيّنات التجميع 1 و2)، بينما قد يتم تمثيل فئات أخرى بشكل غير كافٍ (الكرات الحمراء في عيّنات التجميع 1 و2) أو قد تكون غير متوفّرة (الكرات الخضراء في عيّنة التجميع 3). يمكنكم الاطّلاع على الشكل العلمي الأصلي من ReaserchGate .

يمكنكم تجربة ذلك.

ناتج المحطة الطرفية لاختبار bootstrap — مثال على اختبار أسلوب التجميع

اختبار الاتساق الذاتي

لا يمكن الوثوق بالمحكّم إلا إذا كان يقدّم دائمًا الإجابة نفسها للمدخل نفسه. إذا ضبطتم درجة العشوائية على 0، يكون المحكّم متسقًا بنسبة 100%. تأكّدوا من هذا الاتساق.

الاختبار: شغِّلوا المحكّم عدة مرات على مجموعة البيانات نفسها تمامًا، على سبيل المثال، سحب عشوائي من مجموعة بيانات المواءمة. احسبوا التباين لكل حالة اختبار في عمليات التكرار هذه. اسعوا إلى تحقيق اتساق بنسبة 100% (تباين صفري). إذا كان التباين أكبر من صفر، يفشل الاختبار لأنّ المحكّم يقدّم إجابات مختلفة للمدخل نفسه.
الإصلاح: قد يكون طلب المحكّم غامضًا أو درجة الحرارة مرتفعة جدًا. أعيدوا كتابة أجزاء الطلب غير الواضحة، وخاصةً معايير التقييم. اخفضوا درجة العشوائية إلى 0 (أو اضبطوا thinking_level على "مرتفع")، إذا لم يسبق لكم إجراء ذلك.

للاطّلاع على ذلك قيد التنفيذ، شغِّلوا الاختبار.

الناتج النهائي لاختبار اتساق التقييم. — في هذا المثال، اختبرنا 6 عيّنات لكل مقياس من مقاييسنا الثلاثة (مدى سمية الشعار ومدى ملاءمة الشعار للعلامة التجارية ومدى ملاءمة اللون للعلامة التجارية). كانت النتائج مستقرة بالكامل تقريبًا، ولكن بعض العيّنات قدّمت نتائج غير متّسقة.

الاختبار النهائي

ساعدكم أسلوب التجميع في إجراء فحص أولي لمنع الملاءمة الزائدة. بعد ذلك، ستجرون اختبارًا نهائيًا باستخدام بيانات جديدة. هذا هو التأكيد النهائي على أنّ المحكّم يمكنه تسجيل النتائج بشكل صحيح للمدخلات الجديدة.

الاختبار: احتفظوا بمجموعة بيانات منفصلة للاختبار النهائي تحتوي على 20 عيّنة مصنّفة من قِبل المستخدمين لم تستخدموها أثناء المواءمة. شغِّلوا المحكّم على هذه المجموعة.
الإصلاح: إذا ظلت نتيجة المواءمة مرتفعة، يكون المحكّم جاهزًا. إذا انخفضت النتيجة بشكل حاد، يشير ذلك إلى المطابقة بشكل مفرط: لقد عدّلتم طلبكم عدة مرات لاجتياز بيانات المواءمة المحدّدة. وسِّعوا نطاق الطلب ومعايير التقييم والأمثلة القليلة.