نقدّم لك "تقييمات الذكاء الاصطناعي": لا تخمِّن، بل قِس

قد تغرينا الميزات المستندة إلى النماذج اللغوية الكبيرة بتخطّي الاختبارات، لكنّ عمليات التقييم هي مفتاحك لإطلاق المنتجات بثقة.

لنفترض أنّك تصمّم نموذجًا أوليًا لأداة إنشاء مظاهر مستندة إلى الويب. إنّها أداة ممتعة: في أحد تطبيقات الويب، يدخل المستخدم اسم شركة ووصفًا لها، والجمهور المستهدف، والأسلوب والمزاج. يرسل الواجهة الأمامية هذا الرمز إلى الخادم. يستخدم الخادم نموذجًا لغويًا كبيرًا (LLM) لإنشاء شعار إبداعي يتوافق مع النبرة والمزاج المتوقّعَين، بالإضافة إلى مجموعة ألوان يسهل الوصول إليها وتتوافق مع العلامة التجارية. ويتم عرض هذه البيانات كعنصر JSON صغير.

سنطلق على هذا التطبيق اسم ThemeBuilder.

مدخلات ومخرجات ThemeBuilder
تعرض أداة ThemeBuilder مثالاً على مظهر لشركة Midnight Coffee. يستخدم التطبيق اسم الشركة ووصفها والجمهور المستهدف وأسلوب الكتابة لإنشاء شعار ولوحة ألوان.

يمكنك اختيار نموذج لغوي كبير أساسي وتكرار الطلب. أعجبت المصمّم الداخلي لوحات الألوان، كما أنّ الشعارات تبدو جذابة.

الآن، لديك الأسئلة التالية:

  1. هل هو جاهز للإصدار العلني؟ لا تعرف ما إذا كانت جودة مخرجات تطبيقك متسقة بما يكفي. أبلغ بعض المختبِرين الداخليين عن لوحات ألوان غير صالحة أو شعارات لا تتوافق مع العلامة التجارية. عند إصلاح حالة واحدة، يظهر خطأان آخران.
  2. هل يمكنني تغيير النماذج؟ قد تحتاج إلى الترقية إلى أحدث إصدار من نموذج اللغة الكبير نفسه لتوفير وقت الاستجابة، أو التبديل من خدمة مُدارة إلى نموذج مستضاف ذاتيًا لخفض التكاليف. ولا تعرف ما إذا كان ذلك سيحسّن أو يسيء إلى ناتج تطبيقك، وليس لديك طريقة لاختبار حالات التراجع.
  3. هل من الآمن شحنها؟ أبلغ أحد المستخدمين عن محتوى سام مرة واحدة، ولكن لا يمكنك إعادة إنتاجه. هل هذا مجرد خطأ أم يجب حظر إطلاق التطبيق؟

يوقف فريقك عملية الإطلاق لأنّ جودة نتائج النموذج اللغوي الكبير تختلف كثيرًا. من الصعب بناء الثقة في إمكانية الشحن بدون إجراء اختبارات.

لماذا التخمين بدلاً من الاختبار؟

عند إنشاء المحتوى باستخدام الذكاء الاصطناعي للمرة الأولى، قد يميل المستخدم إلى الاكتفاء ببعض النتائج، والاعتقاد بأنّها تبدو جيدة، ثم الانتقال إلى الخطوة التالية. لماذا قد تعتمد على الحدس بدلاً من القياسات والبيانات؟

تنتج الخوارزميات القطعية ناتجًا واحدًا لكل إدخال. تتضمّن الخوارزميات الاحتمالية نواتج متعدّدة محتملة لكل إدخال.

من المحتمل أنّك تفعل ذلك لأنّ النماذج اللغوية الكبيرة هي نماذج احتمالية وليست حتمية. وهذا يعني أنّه حتى عند تقديم اسم الشركة والوصف والجمهور والأسلوب نفسه، قد تعرض أداة ThemeBuilder شعارًا ولوحة ألوان مختلفَين.

ما مِن إجابة صحيحة واحدة عن الشعار الجذّاب أو لوحة الألوان المتوافقة مع العلامة التجارية.

مستوى الإبداع في النماذج اللغوية الكبيرة ممتاز. لكنّ عدم الحتمية يبدو متعارضًا مع فكرة الهندسة. لذلك، قد تستنتج أنّ التطبيقات المستندة إلى النماذج اللغوية الكبيرة من المحتمل ألا تكون قابلة للاختبار.

التقييمات هي الحل

في عالم النماذج اللغوية الكبيرة، تظل أفضل ممارسات التطوير صالحة. يمكننا ويجب أن نختبر تطبيقاتنا المستندة إلى نماذج اللغات الكبيرة. نحتاج فقط إلى تقنيات مختلفة. تُسمّى هذه التقنيات التقييمات، أو evals باختصار. تتضمّن عمليات التقييم سير عمل جديدًا، ولكن خبرتك الحالية في الاختبارات ستساعدك مباشرةً في إنشاء عمليات تقييم رائعة.

التقييمات هي اختبارات لميزات الذكاء الاصطناعي. تساعدك هذه الاختبارات في إنشاء حلقة الملاحظات الأساسية: إذا أنشأت مسارًا قويًا للتقييمات، ستعمل الميزات المستندة إلى نماذج لغوية كبيرة بشكل جيد للمستخدمين. بعد ذلك، يمكن لفريقك إطلاق الميزات بثقة.

إذا كنت تعمل على إنشاء تطبيقات باستخدام نماذج لغوية كبيرة، فإنّ تعلُّم كيفية تنفيذ عمليات تقييم قوية هو أحد أفضل الطرق لاستغلال وقتك.

الآن، لنتعرّف على التقييمات.