چه انتظاراتی از این مجموعه داشته باشید و قبل از شروع چه چیزهایی را باید بدانید.
در این مجموعه، شما ارزیابیها (evals) را برای برنامه نمونه ما، ThemeBuilder، میسازید. شما یاد خواهید گرفت که چگونه:
- یک گردش کار ارزیابی قوی و جامع ایجاد کنید تا بتوانید به کاربران خود اطمینان داشته باشید که میتوانید آن را به آنها ارائه دهید.
- از الگوی LLM-as-a-judge برای سنجش کیفیت ذهنی استفاده کنید. یک قاضی با حداقل تنظیمات ایجاد کنید، یا از تکنیکهای پیشرفته برای توسعه یک قاضی سفارشی که مانند متخصصان برتر فکر میکند، استفاده کنید.
- با اجرای ارزیابیها در زمان ساخت (CI/CD) و در مرحله تولید، خط لوله خود را خودکار کنید تا رگرسیونها را زود تشخیص دهید.
- تکنیکهایی را به کار ببرید که به شما اطمینان آماری میدهند و ثابت میکنند نتایج شما فقط یک قرعهکشی خوششانس از مجموعه تستهایتان نیستند، و طراحی ارزیابیهای خود را برای شناسایی رگرسیونهای پنهان بهینه کنید.
- از ارزیابیها برای انتخاب بهترین مدل برای مورد استفاده خود استفاده کنید.
رویکرد
این مجموعه را به عنوان نقطه شروع خود در نظر بگیرید. شما میتوانید تنها با استفاده از راهنماییهای اصلی، که ما بر اساس بهترین شیوههای استاندارد صنعت تهیه کردهایم، خط لوله ارزیابی کامل خود را بسازید و وقتی آماده ارتقا شدید، تکنیکهای پیشرفتهتری را بررسی کنید.
چه از یک پلتفرم ارزیابی آماده استفاده کنید و چه خودتان آن را بسازید، مفاهیم و تکنیکهایی که یاد خواهید گرفت، وابسته به ابزار نیستند. درک دلیل پشت آنها به شما کمک میکند تا از دامهای رایج دوری کنید و یک خط لوله ارزیابی حرفهای ایجاد کنید، صرف نظر از اینکه چه پلتفرمی را انتخاب میکنید.
پس از تکمیل، شما خواهید دانست که چگونه روی درخواست خود تکرار کنید، LLM خود را ارتقا دهید، یا LLM خود را هنگام ارسال به کاربران خود با اطمینان تغییر دهید.
پیشنیازها
شما باید تجربه کار با LLM را داشته باشید. فرض میکنیم که شما از قبل با موارد زیر راحت هستید:
- اصول اولیه LLM: جبرگرایی در مقابل موتورهای احتمال ، توهم ، خروجیهای ساختاریافته ، دما .
- تکنیکهای مهندسی سریع .
- مبانی هوش مصنوعی مولد: ارائه دهندگان مدل، پلتفرمها ، معیارها و جدول امتیازات