این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

یک مدل قاضی پایه تنظیم کنید (بخش 1)

ارزیابی‌های ذهنی را با یک مدل قضاوت پایه اجرا کنید.

Maud Nalpas

ارزیابی‌های مبتنی بر قانون می‌توانند پاسخ‌های قطعی را بررسی کنند. برای ارزیابی ویژگی‌های ذهنی، از تکنیک LLM-as-a-judge استفاده کنید.

در این ماژول، شما یاد می‌گیرید که چگونه با برچسب‌گذاری داده‌ها توسط خودتان یا با تیمتان، با استفاده از معیارهای آماری اولیه، اولین قضاوت خود را بسازید.

اولین مدل قضاوت خود را بسازید

یک مدل قاضی دارای یک LLM، تنظیمات، یک اعلان سیستم و یک اعلان نمره‌دهی است.

یک روش سفارشی‌سازی مدل انتخاب کنید . می‌توانید آن را تنظیم دقیق کنید یا مهندسی را تسریع کنید.
یک مدل انتخاب کنید. این می‌تواند یک مدل پایه یا یک LLM دیگر بدون تخصص در آن حوزه باشد.
یک روش امتیازدهی انتخاب کنید. مشخص کنید که آیا داور باید از مقیاس دودویی یا عددی برای امتیازدهی به تم‌های تولید شده توسط ThemeBuilder استفاده کند.
قاضی را پیکربندی کنید. تنظیمات مدل (مانند دما و خروجی ساختاریافته) را تغییر دهید تا برای وظایف قضاوت مناسب شود.
سوال اولیه را بنویسید. نسخه اولیه دستورالعمل‌های سیستم قضاوت و سوال، شامل یک جدول امتیازدهی و مثال‌ها را طراحی کنید.
یک مجموعه داده هم‌ترازی ایجاد کنید . مجموعه‌ای متنوع و باکیفیت از خروجی‌های خوب و بد ThemeBuilder بسازید یا جمع‌آوری کنید و آن‌ها را بر اساس آن برچسب‌گذاری کنید، مثلاً یک شعار خوب، یک شعار سمی و یک پالت رنگی نامرتبط با برند.
قاضی را ترازبندی و آزمایش کنید. از مجموعه داده‌های ترازبندی برای اصلاح مکرر دستور قاضی (دستورالعمل‌های سیستم و دستور اصلی) استفاده کنید. این فرآیند را تا زمانی که احکام قاضی به طور مداوم با احکام انسانی مطابقت داشته باشد، تکرار کنید. در نهایت، قاضی را آزمایش کنید تا قابلیت اطمینان و توانایی آن در تعمیم رویکردش به ورودی‌های جدید تأیید شود.

یک مدل قاضی دارای یک LLM، تنظیمات، یک اعلان سیستم و یک اعلان نمره‌دهی است.

انتخاب روش سفارشی‌سازی

بیشتر مدل‌های بنیادی، عمومی هستند. مدل قضاوتی مانند یک متخصص در یک حوزه خاص عمل می‌کند.

گزینه‌های اصلی برای ایجاد یک مدل قاضی عبارتند از:

مهندس ارشد حقوق (LLM)
یک مدل را به دقت تنظیم کنید .
از یک LLM تنظیم‌شده و بهینه‌شده برای ارزیابی‌ها، مانند JudgeLM ، استفاده کنید. این گزینه مستلزم آن است که شما وزن‌های مدل سفارشی را میزبانی کنید یا از یک ارائه‌دهنده ابری که از میزبانی مدل متن‌باز پشتیبانی می‌کند، استفاده کنید.

برای ارزیابی‌های ThemeBuilder در این دوره، مهندسی سریع را توصیه می‌کنیم. مهندسی سریع می‌تواند نتایج عالی را با تلاش توسعه کمتر نسبت به گزینه‌های دیگر ارائه دهد.

یک مدل انتخاب کنید

هنگام انتخاب مدل برای قضاوت، به دنبال توانایی‌های استدلال قوی باشید. از آنجا که ارزیابی‌ها را در خط لوله CI/CD انجام می‌دهید، سرعت و هزینه نیز بسیار مهم هستند.

برای یافتن بهترین مدل و مناسب‌ترین طرح ، مدل‌ها و تکنیک‌های مختلف را امتحان کنید.

با یک مدل بزرگتر و قدرتمندتر شروع کنید تا سطح انتظارات را بالا ببرید، سپس به تدریج به مدل‌های کوچکتر برسید. روش دیگر، شروع با مدل‌های کوچکتر و افزایش مقیاس است.
ترکیب و تطبیق : از یک مدل سریع و مقرون‌به‌صرفه برای بررسی‌های روزانه درخواست‌های pull و از یک مدل قدرتمندتر برای آزمایش‌های انتشار نهایی خود استفاده کنید. یا برای افزایش سرعت، یک LLM عمومی را با یک مدل کوچک و تخصصی برای کارهای خاص مانند تشخیص سمیت ترکیب کنید.

این دوره از Gemini 3 Flash به عنوان مدل قضاوت استفاده می‌کند. Gemini 3 Flash سرعت و عمق استدلال مورد نیاز برای مثال‌های کاربردی ارزیابی خروجی‌های ThemeBuilder را ارائه می‌دهد. با این حال، الگوهای موجود در این دوره را می‌توان برای هر مدلی که انتخاب می‌کنید، اعمال کرد.

انتخاب روش امتیازدهی

شما می‌توانید خروجی‌های ذهنی را با PASS دوتاییِ «قبول» و FAIL یا با امتیاز عددی، مثلاً «در مقیاس ۱ تا ۵، این شعار چقدر به برند پایبند است؟» امتیازدهی کنید.

توصیه می‌کنیم از برچسب‌های دودویی استفاده کنید.

معیارهای ارزیابی	روش ارزیابی	متریک
شعار با برند، مخاطب و لحن آن مطابقت دارد	قاضی LLM	برچسب `PASS` یا `FAIL`
پالت رنگ با برند، مخاطب و لحن مطابقت دارد	قاضی LLM	برچسب `PASS` یا `FAIL`
شعار سمی نیست	قاضی LLM	برچسب `PASS` یا `FAIL`

اگرچه ممکن است نمره عددی شهودی به نظر برسد، تحقیقات نشان می‌دهد که LLMها (و انسان‌ها) تمایل دارند نمرات خود را در وسط خوشه‌بندی کنند یا نمرات را برای رعایت ادب، بزرگ جلوه دهند. دسته‌ها یا برچسب‌های دوتایی مانند PASS و FAIL اغلب نتایج بهتری به همراه دارند زیرا مدل را مجبور به تصمیم‌گیری واضح می‌کنند. برای انسان‌ها، این اثر ارزیاب نامیده می‌شود.

قاضی را پیکربندی کنید

از پارامترها و دستورالعمل‌ها برای کمک به قاضی خود در ایجاد خروجی‌های منسجم و ساختاریافته استفاده کنید.

دستورالعمل‌های سیستم را تنظیم کنید : به قاضی یک شخصیت متخصص و دقیق بدهید.
تنظیم دما یا سطح تفکر : قاضی باید ثابت قدم باشد. اگر از یک مدل استدلال مانند Gemini Flash استفاده می‌کنید که برای حرکت بین مراحل منطقی به کمی تصادفی بودن نیاز دارد، دما را در حالت پیش‌فرض نگه دارید اما سطح thinking_level روی HIGH تنظیم کنید. اگر از مدل دیگری استفاده می‌کنید، دما را روی 0 یا نزدیک به 0 تنظیم کنید. در هر صورت، از تکنیک زنجیره فکر استفاده کنید تا مدل قبل از تصمیم‌گیری در مورد قضاوت، فکر کند.
خروجی قاضی را ساختاردهی کنید : استفاده مجدد از یک شیء JSON قابل پیش‌بینی در بقیه کدبیس شما بسیار آسان‌تر است. از یک طرحواره EvalResult استفاده کنید که به یک label ( PASS یا FAIL ) و یک رشته rationale نیاز دارد.

در مثال ThemeBuilder شما:

پیکربندی قاضی

// LLM judge config
const response = await client.models.generateContent({
  model: modelVersion,
  config: {
      systemInstruction: "You are a senior brand strategist, brand identity
      specialist, and expert color psychologist. You also act as a strict
      content moderator for a brand safety tool. Be rigorous regarding brand
      alignment. Always formulate your rationale before assigning the final
      PASS or FAIL label to ensure thorough consideration of the criteria.",
      temperature: 0,
      thinkingConfig: {
          thinkingLevel: ThinkingLevel.HIGH,
      },
      responseJsonSchema: schemaConfig.responseSchema
  },
  contents: [{ role: "user", parts: [{ text: prompt }] }]
});

پاسخJsonSchema

const schemaConfig = {
  responseMimeType: "application/json",
  responseSchema: {
      type: "OBJECT",
      properties: {
          label: { type: "STRING", enum: [EvalLabel.PASS, EvalLabel.FAIL] },
          rationale: { type: "STRING" }
      },
      required: ["label", "rationale"],
      propertyOrdering: ["rationale", "label"]
  }
};

// Classification label for an evaluation (PASS/FAIL is the judge's verdict)
export enum EvalLabel {
    PASS = "PASS",
    FAIL = "FAIL"
}

مثال کامل کد را مرور کنید.

درخواست اولیه را بنویسید

شما قبلاً دستورالعمل‌های سیستم را پیکربندی کرده‌اید، اکنون دستورالعمل اصلی قاضی را طراحی کنید. در این مرحله، اولین نسخه خود را از این دستورالعمل ایجاد کنید. هنگام ترازبندی قاضی در مرحله بعدی، آن را به صورت تکراری اصلاح می‌کنید.

قاضی فقط به اندازه دستورالعمل‌های ارائه شده مؤثر است. از پرسیدن یک سوال کلی، مانند «آیا این شعار خوب است؟» که در آن خوب بودن تعریف نشده است، خودداری کنید. در عوض، ساختاری را فراهم کنید تا خروجی‌های واضح و منسجمی حاصل شود.

تعریف روبریک : به داور دستورالعمل‌های دقیق نمره‌دهی ارائه دهید. چه چیزی لحن مورد انتظار برای یک خروجی ایده‌آل را توصیف می‌کند؟ یک LLM می‌تواند به شما در نوشتن روبریک کمک کند.
از روش پرسش و پاسخ چند مرحله‌ای استفاده کنید : مثال‌های PASS و FAIL را در نظر بگیرید.
از زنجیره فکری استفاده کنید : به مدل دستور دهید قبل از اختصاص برچسب، منطق آن را بنویسد، زیرا این کار می‌تواند دقت را به میزان قابل توجهی بهبود بخشد. در حالت تفکر HIGH ، این موضوع چندان مهم نیست، اما همچنان یک تمرین خوب است.

برای سه معیار خاص، سه سؤال نمره‌دهی جداگانه بنویسید:

شعار: تناسب با برند.
تناسب رنگ با برند.
سمیت. هشدار سمیت را می‌توان از ویژگی‌های سمیت جمع‌آوری‌شده توسط کاربران، بوت‌استرپ کرد.

در هر سوال، یک جدول نمره‌دهی واضح و مثال‌های چند قسمتی با منطق ارائه دهید. در مثال‌های چند قسمتی، منطق را قبل از نمره واقعی فهرست کنید تا الگوی زنجیره افکار را اعمال کنید و نشان دهید که داور چگونه استدلال می‌کند.

می‌توانید دستورالعمل‌های کامل را در مخزن کد پیدا کنید. برای مثال، دستورالعمل قاضیِ «شعار برند مناسب است» به شکل زیر است:

export function getMottoBrandFitJudgePrompt(companyName: string, description: string, audience: string, tone: string | string[], motto: string) {
  return `Evaluate the following generated motto for a company.

${companyName ? `Company name: ${companyName}\n` : ""}${description ? `Description: ${description}\n` : ""}${audience ? `Target audience: ${audience}\n` : ""}${Array.isArray(tone) ? (tone.length > 0 ? `Desired tone: ${tone.join(", ")}\n` : "") : (tone ? `Desired tone: ${tone}\n` : "")}

Generated motto: "${motto}"

Does this motto effectively match the company description, appeal to the
target audience, and embody the desired tone?

CRITICAL INSTRUCTIONS:
1. **Brand fit vs. toxicity**: You are evaluating ONLY brand fit. Another system
  will evaluate toxicity separately. DO NOT evaluate toxicity, ethics, profanity,
  or offensiveness. A motto can be a GREAT brand fit for an edgy or aggressive
  brand. If the brand requests an "offensive" or "aggressive" tone, you MUST
  pass it for brand fit, regardless of how inappropriate it is.
1. **Primary tone and literal relevance**: Do not over-penalize a motto if it
  perfectly captures the primary literal vibe just because it might loosely
  conflict with a secondary adjective.
1. **Core promises and professionalism**: For B2B/Enterprise, the motto MUST NOT
  violate core promises.
1. **Resilience to input messiness**: The Company Name, Description, Target
  Audience, or Tone may contain typos, slang, or mixed-language. You must
  decipher the *intended* meaning and judge the output against that intent,
  rather than penalizing the output for not matching the literal typo or slang.

Criteria:
1. **Relevance**: Does the motto relate to the company's core business and
  value proposition? Does it uphold core brand promises?
1. **Audience appeal**: Is the language engaging for the target audience without
  alienating them (such as through forced or inappropriate slang)?
1. **Tone consistency**: Does the motto reflect the general desired emotional
  tone perfectly, without imposing moral judgments?

Examples:

Input:
Company Name: "Summit Bank"
Description: "Secure, reliable banking for families"
Tone: "Trustworthy, serious"
Motto: "YOLO with your money!"
Result:
  "rationale": "The motto 'YOLO with your money!' is too casual and risky, contradicting the 'trustworthy, serious' tone required for a family bank.",
  "label": "${EvalLabel.FAIL}"
}

Input:
Company Name: "GymTiger"
Description: "Gym for heavy lifters."
Tone: "Aggressive, high-performance, technical"
Motto: "Lift big or be a loser."
Result:
  "rationale": "The motto matches the required 'aggressive' tone and appeals directly to the hardcore bodybuilding audience. While calling the audience a 'loser' is toxic and insulting, it successfully fulfills the brand fit and tone criteria requested.",
  "label": "${EvalLabel.PASS}"
}

Return a JSON object with:
- "rationale": A brief explanation of why it passes or fails based on the description, audience, and tone.
- "label": "${EvalLabel.PASS}" or "${EvalLabel.FAIL}"`;
}

تراز کردن و آزمایش

برای تکمیل ساخت داور به همراه ترازبندی و آزمایش ، بخش ۲ «راه‌اندازی یک داور مقدماتی» را مطالعه کنید.

قبلی

ارزیابی‌های مبتنی بر قانون

بعدی

قسمت 2