یک مدل قاضی پایه تنظیم کنید (بخش 2)

برای شروع ارزیابی‌های ذهنی، مدل قضاوت اولیه خود را راه‌اندازی کنید.

قاضی را هم‌تراز و آزمایش کنید

شما یک قضاوت اولیه دارید، اما هنوز نمی‌توانید به آن اعتماد کنید. قضاوت شما فقط زمانی آماده است که به طور مداوم با قضاوت انسانی موافق باشد.

ایجاد یک مجموعه داده هم‌ترازی

برای کالیبره کردن قاضی خود، به یک مجموعه داده هم‌ترازی نیاز دارید. این مجموعه، مجموعه‌ای کوچک و باکیفیت از ورودی‌ها و خروجی‌هایی است که به صورت دستی توسط انسان‌ها ارزیابی شده‌اند. این مجموعه داده به عنوان حقیقت پایه شما عمل می‌کند. شما از آن برای تأیید اینکه منطق قاضی به طور مداوم با انتظارات شما هم‌تراز است، استفاده خواهید کرد.

مجموعه داده‌های هم‌ترازی شما باید شامل ۳۰ تا ۵۰ جفت ورودی-خروجی باشد. این مجموعه به اندازه کافی بزرگ است که برخی از موارد مرزی را پوشش دهد، اما به اندازه کافی کوچک است که بتوانید در مدت زمان کوتاهی آن را برچسب‌گذاری کنید.

در مثال ThemeBuilder، یک ورودی در مجموعه داده‌های ترازبندی به این شکل است (ورودی، خروجی، برچسب انسانی):

{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "audience": "kids 5-10",
    "tone": ["prehistoric", "loud", "fun"]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era."
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While on-theme, this motto is too formal for kids.
        It fails to capture the required 'loud' and 'fun' energy."
    }
  }
}

برای تولید ورودی‌ها و خروجی‌ها، می‌توانید در صورت وجود، از لاگ‌های تولید استفاده کنید ، داده‌ها را به صورت دستی بسازید ، از یک LLM ( داده‌های مصنوعی ) استفاده کنید، یا از چند نمونه دستچین شده شروع کنید و از یک LLM بخواهید مجموعه داده‌های شما را تکمیل کند .

وقتی ورودی‌ها و خروجی‌هایتان آماده شد، با استفاده از روبریک (یا جدول) خود، خروجی‌ها را با تیمتان به صورت PASS یا FAIL برچسب‌گذاری کنید. این به حقیقتِ بنیادین شما تبدیل می‌شود.

مطمئن شوید که مجموعه داده‌های هم‌ترازی شما شامل نمونه‌های PASS و FAIL با سختی‌های مختلف باشد، برای مثال:

  • ۱۰ نمونه از پرونده‌های مسیر شاد که قاضی شما باید آنها را قابل قبول PASS اعلام کند.
  • ۲۰ نمونه پرونده که قاضی شما باید آنها را FAIL اعلام کند:
    • شکست‌های آشکار ، برای مثال یک شعار بسیار سمی یا کاملاً نامرتبط با برند.
    • شکست‌های نامحسوس ، برای مثال شعاری که از نظر دستوری بی‌نقص است اما برای یک برند شوخ‌طبع کمی بیش از حد رسمی است، یا شعاری که فقط تا حدی با لحن و لحن همخوانی دارد.

قاضی LLM شما مانند یک دروازه‌بان عمل می‌کند. هم‌تراز کردن آن با مجموعه داده‌هایی که تعداد موارد ناموفق آن از تعداد موارد موفق بیشتر است، به شما فرصت‌های بیشتری برای تنظیم روبریک (Rubric) جهت شناسایی موارد ناموفق می‌دهد و در نهایت قاضی را در تشخیص موارد ناموفق بهتر می‌کند.

وقتی مجموعه داده‌های ترازبندی شما آماده شد، باید چیزی شبیه به این باشد:

موارد مسیر شاد (قابل قبول)

// Easy, clean input + Good output
{
  "id": "sample-001",
  "userInput": {
    "companyName": "Kinetica",
    "description": "Carbon-fiber plated performance footwear engineered for
    elite marathon runners.",
    "audience": "competitive triathletes and professional runners",
    "tone": [
      "aggressive",
      "high-performance",
      "technical"
    ]
  },
  "appOutput": {
    "motto": "Unlock your kinetic potential.",
    "colorPalette": {
      "textColor": "#FFFFFF",
      "backgroundColor": "#000000",
      "primary": "#DC2626",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "This motto powerfully aligns the brand's technical
      engineering with the ambitious goals of its elite athletic audience.
      Relevance: Uses 'kinetic' to expertly link the brand to physical
      energy. Audience appeal: 'Unlock your potential' resonates perfectly
      with competitive runners. Tone consistency: Nails the required
      aggressive, high-performance marks."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "Perfectly clean and motivational. No offensive or
      exclusionary language."
    },
    "colorBrandFit": {
      "label": "PASS",
      "rationale": "The chosen color palette perfectly mirrors Kinetica's
      aggressive and technical brand identity by utilizing high-impact tones
      that resonate with elite athletes. Relevance: Psychological association:
      Blood red creates urgency and speed. Harmony: Stark contrast against
      black/white feels highly technical.
      Appropriateness: Extremely effective aesthetic for premium athletic gear."
    }
  }
}

شکست‌های آشکار (FAIL)

// Off-brand color palette
{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "description": "Dinosaur themed playground and party venue.",
    "audience": "kids 5-10",
    "tone": [
      "prehistoric",
      "loud",
      "fun"
    ]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era.",
    "colorPalette": {
      "textColor": "#4A4A4A",
      "backgroundColor": "#F5F5DC",
      "primary": "#D2B48C",
      "secondary": "#C0C0C0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While the motto relates to the dinosaur theme, its overly
      academic and formal tone fails to capture the loud and fun energy
      essential for a children's playground brand. Relevance: Effectively fits
      the dinosaur theme. Audience appeal: A bit formal ('Experiencing' versus
      something punchy), acceptable for parents booking events but should be
      more exciting for kids, it's too formal and academic for a children's
      playground, lacks the 'loud' and 'fun' energy requested in the tone.
      Tone consistency: It touches on the 'prehistoric' element adequately."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A completely family-friendly, educational-sounding statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "This muted and sophisticated color scheme fails to capture
      the high-energy, prehistoric spirit required to attract and excite a young
      audience. Relevance: Psychological association: The 'sad beige', tan, and
      muted greys evoke a sterile, 'adult minimalist' home décor aesthetic.
      Harmony: The colors are muddy and lifeless. Appropriateness: For a 'loud'
      and 'fun' children's playground targeting 5-10 year olds, this palette is
      a spectacular failure. It desperately needs vibrant, exciting primary
      colors to attract kids."
    }
  }
},

شکست‌های نامحسوس (FAIL)

// Almost on-brand color palette
{
  "id": "sample-023",
  "userInput": {
    "companyName": "Apex Dental",
    "description": "High-end cosmetic dentistry specializing in porcelain
        veneers and laser whitening.",
    "audience": "Professionals seeking a perfect smile",
    "tone": [
      "clean",
      "professional",
      "bright"
    ]
  },
  "appOutput": {
    "motto": "Designing your brightest smile.",
    "colorPalette": {
      "textColor": "#1A202C",
      "backgroundColor": "#FFFFFF",
      "primary": "#FFC107",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "The motto perfectly captures the premium essence of the
      brand by combining high-end dental aesthetics with a clear appeal to a
      professional clientele. Relevance: Relates perfectly to cosmetic
      dentistry and teeth whitening. Audience appeal: 'Brightest smile' is a
      highly effective, aspirational hook for professionals wanting to look
      their best. Tone consistency: Clean, upbeat, and exceedingly professional."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A very positive, medical-grade, and safe statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "The choice of bright yellow is a fundamental branding
      failure for a cosmetic dental practice as it creates a direct and
      repellent visual link to tooth discoloration, undermining the clinic's
      high-end whitening positioning. Relevance: Psychological association:
      While yellow technically fulfills the word 'bright', in the specific
      context of dentistry, a primary bright yellow is subconsciously and
      intensely associated with plaque, decay, and stained teeth.
      Harmony: It stands out strongly but sends the wrong message.
      Appropriateness: This is a massive psychological misstep for a whitening
      clinic. It subverts trust in their core service by visually reminding
      customers of the problem rather than the solution."
    }
  }
},

رسیدن به هم‌ترازی

با آماده شدن حقیقت زمینه‌ای، وقت آن است که قاضی را با برچسب‌های انسانی همسو کنید . هدف شما این است که مطمئن شوید قاضی به طور مداوم با شما موافق است و قضاوت انسانی را تقلید می‌کند. می‌توانید امتیاز همسوسازی را به عنوان درصد برچسب‌های ایجاد شده توسط قاضی که با برچسب‌های ایجاد شده توسط انسان مطابقت دارند، محاسبه کنید.

// total = all test cases
// aligned = test cases where humanEval.label === llmJudgeEval.label
// For example, PASS and PASS
const alignment = (aligned / total) * 100;

یک امتیاز هم‌ترازی هدف تعیین کنید، مثلاً ۸۵٪. هدف شما می‌تواند بسته به مورد استفاده‌تان متفاوت باشد.

مدل داوری خود را در برابر مجموعه داده‌های هم‌ترازی خود اجرا کنید. اگر امتیاز هم‌ترازی شما کمتر از هدفتان است، دلیل داوری را بخوانید تا بفهمید چرا اشتباه شده است. دستورالعمل‌های سیستم و راهنمای داوری را برای پر کردن شکاف‌ها تغییر دهید. این کار را تا زمانی که به امتیاز هدفتان برسید، تکرار کنید.

بهترین شیوه‌ها

برای کمک به داور در امتیازدهی مداوم، این بهترین شیوه‌ها را دنبال کنید:

  • از بیش‌برازش (overfitting) خودداری کنید. دستورالعمل‌ها باید عمومی باشند و خیلی مختص مجموعه داده‌های هم‌ترازی شما نباشند. اگر دستورالعمل‌های خاصی مانند اجتناب از عبارات خاص ارائه دهید، داور در قبولی در این آزمون هم‌ترازی خاص عالی عمل خواهد کرد، اما در تعمیم به داده‌های جدید شکست خواهد خورد. این مشکل به عنوان بیش‌برازش شناخته می‌شود.
  • دستورالعمل‌های سیستم خود را بهینه کنید و دستورالعمل‌ها را ارزیابی کنید. تکنیک‌های بهینه‌سازی دستورالعمل شامل اصلاح دستی دستورالعمل‌ها، درخواست از یک LLM دیگر برای پیشنهاد بهبودها یا اعمال تغییرات بر اساس ترکیبی از این تکنیک‌ها است. تکنیک‌های بهینه‌سازی دستورالعمل می‌توانند از دستی تا بسیار پیشرفته باشند، به عنوان مثال الگوریتم‌هایی که تکامل بیولوژیکی را تقلید می‌کنند . از تغییرات خود یادداشت‌برداری کنید تا در صورت نیاز آنها را برگردانید.

برای مشاهده‌ی ترازبندی در عمل برای ThemeBuilder، خودتان تست ترازبندی را اجرا کنید .

نمونه آزمون همترازی.

تست استرس با بوت‌استرپ

رسیدن به هدف هم‌ترازی ۸۵٪ تضمین نمی‌کند که قاضی شما با داده‌های دنیای واقعی عملکرد خوبی داشته باشد. قاضی خود را با یک ترفند آماری به نام بوت‌استرپ، تحت فشار قرار دهید. بوت‌استرپ نسخه‌های جدیدی از مجموعه داده‌های شما را بدون تلاش اضافی برای برچسب‌گذاری ایجاد می‌کند.

** آزمون: به صورت تصادفی 30 مورد را از مجموعه داده‌های خود با جایگزینی دوباره نمونه‌گیری کنید. در یک اجرا، یک مورد دشوار ممکن است پنج بار انتخاب شود و آزمون را بسیار سخت‌تر کند. آزمون هم‌ترازی را روی این مجموعه‌های تصادفی چندین بار اجرا کنید و میانگین هم‌ترازی و واریانس امتیاز را در این اجراها محاسبه کنید. هیچ عدد جادویی وجود ندارد، اما 10 تکرار، مبنای خوبی برای پروژه‌های متوسط ​​​​است. برای اطمینان بیشتر، تکرارهای بیشتری انجام دهید. ** راه حل: اگر امتیاز هم‌ترازی شما به طور قابل توجهی تغییر می‌کند (واریانس بالا)، قاضی شما هنوز قابل اعتماد نیست. امتیاز اولیه شما یک اتفاق تصادفی بود که توسط چند مورد آسان ایجاد شده بود. دسته‌بندی خود را گسترش دهید و مثال‌های متنوع‌تر و پیچیده‌تری را به مجموعه داده‌های هم‌ترازی خود اضافه کنید.

نمایش بصری یک آزمون بوت‌استرپ. از آنجایی که اشیاء با جایگزینی نمونه‌برداری می‌شوند، برخی از کلاس‌ها ممکن است بیش از حد نمایش داده شوند (تیله‌های زرد در نمونه‌های بوت‌استرپ ۱ و ۲)، در حالی که برخی دیگر ممکن است کمتر از حد نمایش داده شوند (تیله‌های قرمز در نمونه‌های بوت‌استرپ ۱ و ۲) یا حتی وجود نداشته باشند (تیله‌های سبز در نمونه بوت‌استرپ ۳). شکل علمی اصلی را از ReaserchGate مشاهده کنید.

خودت میتونی امتحانش کنی .

نمونه تست بوت‌استرپ.

خود-سازگاری را آزمایش کنید

فقط در صورتی می‌توان به قاضی اعتماد کرد که همیشه برای ورودی‌های یکسان، پاسخ یکسانی ارائه دهد. اگر دمای خود را روی 0 تنظیم کرده‌اید، قاضی باید ۱۰۰٪ سازگار باشد. برای تأیید، آزمایش کنید.

  • آزمون : آزمون قضاوت خود را چندین بار روی مجموعه داده‌های دقیقاً یکسان اجرا کنید، مثلاً یک قرعه‌کشی تصادفی از مجموعه داده‌های هم‌ترازی خود. واریانس هر مورد آزمون را در طول این تکرارها محاسبه کنید. هدف، سازگاری ۱۰۰٪ (واریانس صفر) باشد. اگر واریانس بیشتر از صفر باشد، آزمون ناموفق است زیرا به این معنی است که آزمون قضاوت شما پاسخ‌های متفاوتی برای ورودی یکسان ارائه می‌دهد.
  • راه حل : ممکن است سوال داوری شما مبهم باشد یا دما خیلی بالا باشد. قسمت‌هایی از سوال که مبهم به نظر می‌رسند، به ویژه جدول امتیازدهی خود را بازنویسی کنید. اگر قبلاً این کار را نکرده‌اید، دما را به ۰ کاهش دهید (یا سطح thinking_level روی بالا تنظیم کنید).

برای اینکه این را در عمل ببینید، خودتان این آزمایش را انجام دهید .

خروجی نهایی آزمون سازگاری قاضی.
در این مثال، ما ۶ نمونه را برای هر یک از سه معیار خود (سمیت شعار، تناسب شعار با برند و تناسب رنگ با برند) آزمایش کردیم. نتایج تقریباً کاملاً پایدار بودند، اما چند نمونه نتایج متناقضی داشتند.

امتحان نهایی

بوت‌استرپ به شما کمک کرد تا یک بررسی اولیه برای جلوگیری از بیش‌برازش انجام دهید. اکنون، یک آزمایش نهایی را با استفاده از داده‌های جدید انجام خواهید داد. این تأیید نهایی شما است که داور می‌تواند ورودی‌های جدید را به درستی امتیازدهی کند.

  • آزمون : یک مجموعه داده جداگانه برای امتحان پایان ترم شامل ۲۰ نمونه برچسب‌گذاری شده توسط انسان که در طول هم‌ترازی از آنها استفاده نکرده‌اید، نگه دارید. قضاوت خود را با این مجموعه مقایسه کنید.
  • راه حل : اگر امتیاز ترازبندی شما بالا بماند، داور شما آماده است! اگر امتیاز خراب شود، احتمالاً بیش از حد برازش داده‌اید: شما دستور خود را بیش از حد تنظیم کرده‌اید تا از داده‌های ترازبندی خاص شما عبور کند. دستور، روبریک و مثال‌های چند قسمتی خود را گسترش دهید.

برای اینکه این را در عمل ببینید، خودتان این آزمایش را انجام دهید .

خلاصه

شما آزمایش‌های مختلفی را برای ایجاد قاضی پایه خود انجام دادید، از جمله:

  • آزمون هم‌ترازی بررسی می‌کند که آیا داور درست می‌گوید یا خیر.
  • حساسیت داده‌ها در بررسی بوت‌استرپ و آزمون نهایی. آیا قاضی هنگام مواجهه با داده‌های جدید، اغلب به اندازه کافی درست عمل می‌کند؟
  • آزمون خودسازگاری، نویز سیستم را اندازه‌گیری می‌کند، که نشان می‌دهد تصادفی بودن درونی قاضی LLM چقدر بر نتایج تأثیر می‌گذارد.