آنچه یاد خواهید گرفت

چه انتظاراتی از این مجموعه داشته باشید و قبل از شروع چه چیزهایی را باید بدانید.

در این مجموعه، شما ارزیابی‌ها (evals) را برای برنامه نمونه ما، ThemeBuilder، می‌سازید. شما یاد خواهید گرفت که چگونه:

  • یک گردش کار ارزیابی قوی و جامع ایجاد کنید تا بتوانید به کاربران خود اطمینان داشته باشید که می‌توانید آن را به آنها ارائه دهید.
  • از الگوی LLM-as-a-judge برای سنجش کیفیت ذهنی استفاده کنید. یک قاضی با حداقل تنظیمات ایجاد کنید، یا از تکنیک‌های پیشرفته برای توسعه یک قاضی سفارشی که مانند متخصصان برتر فکر می‌کند، استفاده کنید.
  • با اجرای ارزیابی‌ها در زمان ساخت (CI/CD) و در مرحله تولید، خط لوله خود را خودکار کنید تا رگرسیون‌ها را زود تشخیص دهید.
  • تکنیک‌هایی را به کار ببرید که به شما اطمینان آماری می‌دهند و ثابت می‌کنند نتایج شما فقط یک قرعه‌کشی خوش‌شانس از مجموعه تست‌هایتان نیستند، و طراحی ارزیابی‌های خود را برای شناسایی رگرسیون‌های پنهان بهینه کنید.
  • از ارزیابی‌ها برای انتخاب بهترین مدل برای مورد استفاده خود استفاده کنید.

رویکرد

این مجموعه را به عنوان نقطه شروع خود در نظر بگیرید. شما می‌توانید تنها با استفاده از راهنمایی‌های اصلی، که ما بر اساس بهترین شیوه‌های استاندارد صنعت تهیه کرده‌ایم، خط لوله ارزیابی کامل خود را بسازید و وقتی آماده ارتقا شدید، تکنیک‌های پیشرفته‌تری را بررسی کنید.

چه از یک پلتفرم ارزیابی آماده استفاده کنید و چه خودتان آن را بسازید، مفاهیم و تکنیک‌هایی که یاد خواهید گرفت، وابسته به ابزار نیستند. درک دلیل پشت آنها به شما کمک می‌کند تا از دام‌های رایج دوری کنید و یک خط لوله ارزیابی حرفه‌ای ایجاد کنید، صرف نظر از اینکه چه پلتفرمی را انتخاب می‌کنید.

پس از تکمیل، شما خواهید دانست که چگونه روی درخواست خود تکرار کنید، LLM خود را ارتقا دهید، یا LLM خود را هنگام ارسال به کاربران خود با اطمینان تغییر دهید.

پیش‌نیازها

شما باید تجربه کار با LLM را داشته باشید. فرض می‌کنیم که شما از قبل با موارد زیر راحت هستید: