تجهيز القاضي للإصدار العلني
كانت أداة التقييم الأساسية التي أنشأتها في إعداد نموذج أساسي لأداة التقييم، الجزء 1 والجزء 2، تستند إلى بيانات مصنّفة ذاتيًا. وهذه طريقة رائعة لتحديد خط أساس للاختبار. ومع ذلك، للحصول على جودة مناسبة للاستخدام الفعلي، تحتاج إلى مقيّم يفكّر مثل خبير في المجال، كما تحتاج إلى مقاييس إحصائية قوية لتثق بها على نطاق واسع. هذا ما سنتناوله هنا.
إنشاء مجموعة بيانات مواءمة مع خبراء
يُعدّ الاستعانة بخبراء بشريين لتصنيف مجموعة بيانات المواءمة أمرًا أساسيًا لإنشاء أداة تقييم موثوقة للنماذج اللغوية الكبيرة. إعطاء الأولوية للجودة على الكمية إنّ 30 تصنيفًا عالي الجودة من خبير في المجال أفضل بكثير من 300 تصنيف من غير الخبراء.
العثور على مصنّفين
الاستعانة بمصمّمين وخبراء في العلامات التجارية من داخل الشركة لضمان توافق التصميم مع العلامة التجارية بالنسبة إلى السمية، يمكنك الاعتماد على المصنّفين أنفسهم، أو الاستعانة بفريقك لتصنيف المحتوى استنادًا إلى معايير مركزية لضمان استخدام المصنّفين لمعايير الدرجات نفسها.
كم عدد خبراء تصنيف المحتوى؟
- خبير واحد: هذه الطريقة سريعة ومناسبة للبدء، ولكن سيتم توريث تحيزات الشخص.
- خبيران: يمكن أن تكون هذه الميزانية مناسبة جدًا. لا يمكنك كسر الروابط، ولكن يمكنك رصد الاختلافات.
- ثلاثة نجوم أو أكثر: هذا هو المعيار الذهبي. يمنحك استخدام عدد فردي من التقييمات ميزة حسم التعادل تلقائيًا في التقييمات الثنائية
PASSوFAILكما هو الحال في مثالنا، لأنّه يمكنك اختيار التقييم الذي حصل على الأغلبية.
بالنسبة إلى ThemeBuilder، لنفترض أنّك محظوظ لأنّ لديك ثلاثة مصمّمين داخليين للعلامة التجارية يوافقون على أن يكونوا مصنّفين خبراء.
يضع الخبراء قواعد تقييم
قبل إضافة التصنيفات، اطلب من الخبراء تحديد قواعد تقييم صارمة للسمات المحددة PASS. يساعد ذلك الخبراء في الحفاظ على اتّساق أحكامهم، سواء بشكل فردي أو جماعي.
على سبيل المثال:
Criteria:
• Psychological association: Do the colors evoke the emotions associated with the desired tone?
• Harmony: Do the colors work together to create the right atmosphere?
• Appropriateness: Is the palette suitable for the company's industry?
يصنّف الخبراء البيانات
اطلب من الخبراء مراجعة 30 إلى 50 عينة، وتعيين تصنيف PASS أو FAIL استنادًا إلى نموذج التقييم، وكتابة rationale يشرح سبب اختيارهم لهذا التصنيف. تُعدّ الأسباب أساسية لأنّك ستستخدمها لتحديد المشاكل وحلّها في حال عدم تطابق تقييمات الخبراء مع تقييمات نظامنا.
نصائح لوضع التصنيفات بكفاءة
وضع التصنيفات يدويًا مكلف. جرِّب هذه التقنيات لتحسين كفاءة الخبراء:
- التحقّق فقط: استخدام نموذج لغوي كبير لإنشاء التصنيفات والتفسيرات الأولية، ثمّ يراجعها الخبراء ويصحّحونها. فالتحقّق أسرع من إنشاء حكم من البداية.
- التصنيف الانتقائي: اطلب من خبير ثانٍ مراجعة مجموعة فرعية صغيرة من عمل الخبير الأول. إذا لم يتفقا، توقّف عن العمل على المسطرة وحلّ المشكلة قبل تصنيف المزيد من البيانات.
- الاستعانة بنموذج لغوي كبير للحصول على رأي ثانٍ: اطلب من خبير ونموذج لغوي كبير تقييم العناصر نفسها. إذا كان مستوى الاتفاق منخفضًا، يعني ذلك أنّ النموذج اللغوي الكبير يفهم معايير التقييم بشكل مختلف. كرِّر عملية تعديل قواعد التقييم إلى أن تتوافق.
- التحقّق من الاتساق الداخلي: إذا كان لديك خبير واحد فقط، اطلب منه إعادة تصنيف% 10 عشوائية من البيانات بشكل غير متحيز بعد أسبوع. إذا لم يتفقوا مع تقييماتهم السابقة، فهذا يعني أنّ نموذج التقييم غير ثابت.
في ما يلي مقتطف JSON لإدخال مجموعة بيانات مصنّفة من قِبل خبير، ويتضمّن التصنيفَين PASS وFAIL الخاصَّين بالخبير، بالإضافة إلى الأساس المنطقي المفصّل:
{
"id": "sample-001",
"userInput": {
"companyName": "Kinetica",
// Company description, audience and tone
},
"appOutput": {
"motto": "Unlock your kinetic potential.",
// ... Color palette
},
"humanEvaluation": {
"mottoBrandFit": {
"label": "PASS",
"rationale": "This motto powerfully aligns the brand's technical
engineering with the ambitious goals of its elite athletic audience.
Relevance: Leverages 'kinetic' to expertly link the brand to physical
energy. Audience appeal: 'Unlock your potential' resonates perfectly
with competitive runners. Tone consistency: Nails the required
aggressive, high-performance marks."
},
// ... Human evals for colorBrandFit and mottoToxicity:
}
}
الوصول إلى اتفاق الخبراء وقياسه
تعمل قواعد التقييم كتعليمات للنموذج، لذا من المهم تخصيص وقت لتحسينها. إذا عرّف أحد المصمّمين "مرح" على أنّه "لغة إبداعية" بينما فسّره مصمّم آخر على أنّه "ألوان زاهية"، سيحدث تعارض أيضًا في نموذج اللغة الكبير. يجب أن تجعل قواعد التقييم أكثر صرامة لإزالة حالات الغموض هذه قبل تقديمه إلى الحكم. يُعرف ذلك باسم موثوقية المصنّفَين أو اتفاق المقيّمين، ويضمن الاتفاق العالي أن يقدّم نموذج التقييم تصنيفات موثوقة وعالية الجودة.
تُعدّ حالات عدم الاتفاق بين المقيمين إشارات مفيدة توضّح لك المجالات التي تحتاج فيها معايير التقييم إلى المزيد من التحسين. كرِّر العملية إلى أن يتفق الخبراء على حالات PASS وFAIL.
لا يمكن أن يكون حكم النموذج أكثر دقة من حكم المراجعين الذين صمّموه.
اتفاقية أساسية
إحدى طرق قياس الاتفاق بين المقيّمين هي نسبة عدد المرات التي يتفق فيها الخبراء، وقد استخدمناها أيضًا في نتيجة الاتفاق بين المقيّمين في أداة التقييم الأساسية.
// total = all test cases
// aligned = test cases where human1Eval.label === human2Eval.label
// (for example PASS and PASS)
const alignment = (aligned / total) * 100;
الاتفاقية التي تتجاوز الحظ: مقياس كابا
اتفاق النسبة الأساسية سهل، ولكنّه قد يكون مضلّلاً. لنفترض أنّ لديك مجموعة بيانات تتضمّن نصف PASS ونصف FAIL. إذا ألقى خبيران عملات معدنية، سيتفقان على النتيجة بنسبة% 50 من المرات، وذلك محض صدفة. ويُطلق على ذلك اسم
الحدّ الأدنى للحظ.
لاحتساب الاتفاق بدقة، استخدِم مقاييس إحصائية تقيس الموثوقية بما يتجاوز الصدفة البحتة:
- معامل كابا لكوهين لمصنّفَين.
مقياس Kappa من Fleiss لثلاثة مصنّفين أو أكثر
الاختبار: يجب أن يكون هدفك الحصول على نتيجة Kappa تبلغ
0.61على الأقل، وهي المعيار المتّبع لتحقيق اتفاق كبير. تشير النتيجة0إلى أنّ الأداء لا يختلف عن التخمين العشوائي، بينما تشير النتيجة1.0إلى تطابق مثالي.الحلّ: إذا كانت نتيجة Kappa أقل من
0.61، يعني ذلك أنّ نموذج التقييم الخاص بك غامض جدًا. جمِّع العيّنات التي اختلف فيها الخبراء، وراجِع أسبابهم، وعدِّل نموذج التقييم ليشمل حالات الاستخدام المحدّدة هذه، وكرِّر العملية إلى أن تصل إلى0.61. انتقِل إلى الخطوة التالية فقط بعد أن يتفق الخبراء على ذلك.
| نتيجة كابا | الإجراء |
|---|---|
أقل من 0.60: متدنية |
كرِّر العملية واكتشف سبب اختلاف آراء الخبراء. قد تكون معايير التقييم غير واضحة، لذا عليك تحسينها. |
0.61–0.80: جيدة |
خط الأساس موثوق. المتابعة باستخدام قواعد التقييم هذه |
0.81-1.00 جيد جدًا |
يبدو الأمر رائعًا بشكل مبالغ فيه. تحقَّق مما إذا كانت المهمة سهلة جدًا أو إذا كان الخبراء يبالغون في تبسيطها. |
تصغير تصنيفات الخبراء
إذا استخدمت ثلاثة خبراء أو أكثر لتصنيف بياناتك، يمكنك دمج أصواتهم في تقييم واحد بالأغلبية لكل عيّنة. وتصبح هذه القائمة هي الحقيقة الأساسية.
ضبط القاضي
كما فعلت مع القاضي الأساسي، عليك
ضبط مَعلمات النموذج
وكتابة الطلب. اضبط تعليمات النظام على شخصية خبير صارمة،
واحتفظ بدرجة الحرارة عند 0 لتحقيق أقصى قدر من الاتساق. في طلبك، قدِّم
معايير التقييم نفسها التي استخدمها الخبراء البشريون لتقييم البيانات. أضِف بعض العيّنات التي صنّفتها كعيّنات خبير كأمثلة قليلة الطلقات لتوضّح للحكم طريقة الاستدلال.
مواءمة القاضي واختباره
بعد موافقة الخبراء، يحين الوقت لمعرفة ما إذا كان نموذج اللغة الكبير يتفق معهم.
في عملية الإعداد الأساسية، تناولنا المحاذاة الأولية (الدقة). لكن هذا الرقم وحده يمكن أن يكون مضلّلاً. لنفترض أنّ% 90 من بيانات الاختبار هي PASS. يمكن أن يعرض القاضي الكسول PASS في كل مرة، ويحقق دقة بنسبة% 90 مع عدم رصد أي شعار مسيء.
تحديد فئة إيجابية
حدِّد الفئة الإيجابية. الفئة الإيجابية، والمعروفة أيضًا باسم الحالة المستهدَفة أو الحدث محلّ الاهتمام، هي النتيجة المحدّدة التي تحاول رصدها أو قياسها أو الإبلاغ عنها. تعمل سلسلة تقييم الأداء كحارس بوابة، إذ إنّ هدفها الأساسي هو رصد النتائج غير الجيدة وحظرها.
بافتراض أنّ ThemeBuilder يجيد بشكل عام إنشاء شعارات ولوحات ألوان متوافقة مع العلامة التجارية، وأنّ الشعارات السامة هي حدث نادر أيضًا، ستكون فئتك الإيجابية لجميع معايير التقييم هي FAIL.
مع وضع ذلك في الاعتبار:
- النتائج الإيجابية الخاطئة هي نتائج جيدة تم وضع علامة
FAILعليها بشكل غير صحيح. - النتائج السلبية الخاطئة هي
FAILلم يتم رصدها. - النتائج الموجبة الصحيحة هي
FAILتم تحديدها بشكل صحيح.
الدقة والاسترجاع
مع أخذ الفئة الإيجابية في الاعتبار، يمكنك الآن استخدام مقياسَي الدقة والاسترجاع، وهما مقياسان أفضل من مقياس التطابق الأوّلي:
- الدقة: عندما يقيّم النموذج اللغوي الكبير الإجابة بأنّها
FAIL، كم مرة كانت الإجابة صحيحة؟ على سبيل المثال: عندما صنّف القاضي شعارًا على أنّه مسيء، كم مرة كان تصنيفه صحيحًا؟ - الاسترجاع: عندما يقول الإنسان
FAIL، كم مرة رصدت نماذج اللغة الكبيرة ذلك؟ على سبيل المثال: من بين جميع النتائج السلبية ومن بين جميع الشعارات ولوحات الألوان التي لا تتوافق مع العلامة التجارية، كم عدد النتائج التي رصدها الحكم؟
فهم تكلفة الأخطاء + تحديد النتائج المستهدَفة
اطرح على نفسك السؤال التالي: ما هو الخطأ الأسوأ بالنسبة إلى تطبيقك؟
- اللغة غير اللائقة: اللغة غير اللائقة هي مشكلة تتعلّق بالسلامة. نريد رصد كل شعار سام (تقليل النتائج السلبية الخاطئة)، حتى لو كان ذلك يعني أنّ حكمنا صارم جدًا في بعض الأحيان ويصنّف شعارًا آمنًا على أنّه غير آمن. إذا تم الإبلاغ عن شعار آمن (إيجابي خاطئ)، سيؤدي ذلك إلى تأخير بسيط أو مراجعة من قِبل أحد الموظفين. لذلك، نسعى إلى تحقيق نسبة استرجاع تبلغ% 100. قد تكون الدقة أقل.
- ملاءمة العلامة التجارية: يجب تحقيق التوازن. إنّ عدم رصد التصاميم السيئة ورفض التصاميم الجيدة أمران مكلفان بنفس القدر. لذلك، نريد الحصول على مقياس صحة النموذج ومقياس المراجعة قويين.
درجة F1
عندما يزيد مقياس المراجعة، ينخفض مقياس صحة النموذج غالبًا. بالنسبة إلى السمية، لا يشكّل ذلك مشكلة، لأنّك مهتم فقط بالاستدعاء.
بالنسبة إلى مدى ملاءمة العلامة التجارية، من المهم مراعاة كلّ من التذكّر والدقة. لتحقيق التوازن في هذه الأهمية، يمكنك استخدام مقياس جديد هو F1. يجمع مقياس F1 بين الدقة والتذكّر في مقياس واحد متوازن.
توافق مدى الوصول
نفِّذ عملية التقييم على مجموعة البيانات الموسومة من قِبل الخبراء، واحسب مقاييس الدقة ومقياس صحة النموذج ومقياس المراجعة ودقة الاختبار (F1) لكل معيار من معاييرك. تقييم ما إذا كنت تحقّق أهدافك
إذا لم يكن الأمر كذلك، يمكنك تجميع حالات الفشل وقراءة مبرّرات النموذج اللغوي الكبير. عدِّل تعليمات النظام الخاصة بالحكم ومعايير التقييم لسدّ الثغرات إلى أن تصل المقاييس إلى أهدافك.
وبمجرد أن يحقّق المقيم أهدافك، يكون قد تمّت مواءمته.
التحقّق النهائي
الآن، نتحقّق من صحة القاضي باستخدام الخطوات نفسها التي تناولناها في عملية الإعداد الأساسية للقاضي، ولكن نطبّق مقاييسك المتقدّمة الجديدة:
- اختبار التحمّل باستخدام عملية التمهيد: أعِد أخذ عيّنات من مجموعة البيانات مع الاستبدال لمدة 10 تكرارات. احسب التباين في نتائج الدقة والتذكّر ومقياس F1 في هذه المحاولات لإثبات أنّ نتائجك العالية ليست مجرد ضربة حظ.
- اختبار الاتساق الذاتي: أدخِل البيانات نفسها إلى نظام التقييم عدة مرات للتأكّد من أنّ أحكامه ثابتة بنسبة% 100. نريد ألا يكون هناك أي تباين في جميع التكرارات.
- إجراء اختبار نهائي للقاضي: اختبِر القاضي باستخدام مجموعة من 15 إلى 20 عيّنة جديدة من إعداد الخبراء لم يسبق له رؤيتها. احسب مقياس كابا من كوهين والدقة والتذكّر ومقاييس F1 على هذه المجموعة المخفية. إذا بقيت هذه المقاييس متقاربة، فهذا يثبت أنّ المقارِن لم يفرط في التكيّف مع بيانات التوافق وهو جاهز للتعميم على العالم الحقيقي.
إعادة ضبط القاضي
بعد الانتهاء من ذلك، تهانينا! لقد أنشأت مسار تقييم موثوقًا للغاية.
يُرجى تذكُّر إعادة ضبط المحكّم كلما عدّلت نموذج اللغة الكبير الأساسي الذي يعتمد عليه، أو عندما تتغير مجموعة الخصائص لتطبيقك بشكل أساسي.