Чего ожидать от этого сериала и что вам следует знать, прежде чем начать его смотреть.
В этой серии уроков вы будете создавать оценочные скрипты (evals) для нашего примера приложения ThemeBuilder. Вы узнаете, как:
- Создайте надежный, комплексный процесс оценки, чтобы быть уверенными в возможности внедрения продукта среди пользователей.
- Используйте модель "магистр права в качестве судьи" для оценки субъективного качества. Создайте судью с минимальной настройкой или используйте продвинутые методы для разработки пользовательского судьи, который мыслит как ведущие эксперты в своей области.
- Автоматизируйте свой конвейер, запуская проверки во время сборки (CI/CD) и в продакшене, чтобы выявлять регрессии на ранних стадиях.
- Применяйте методы, которые обеспечат вам статистическую достоверность и докажут, что ваши результаты не являются просто случайным выбором из вашей тестовой выборки, а также оптимизируйте дизайн ваших оценок, чтобы выявлять скрытые регрессии.
- Используйте оценочные инструменты, чтобы выбрать наилучшую модель для вашего конкретного случая.
Подход
Рассматривайте эту серию как отправную точку. Вы можете построить полноценный конвейер оценки, используя только основные рекомендации, основанные на лучших отраслевых практиках, и изучить более продвинутые методы, когда будете готовы перейти на следующий уровень.
Независимо от того, используете ли вы готовую платформу для оценки или создаете свою собственную, концепции и методы, которые вы изучите, не зависят от инструментария. Понимание того, почему они используются, поможет вам избежать распространенных ошибок и разработать экспертный конвейер оценки, независимо от выбранного вами стека технологий.
После завершения вы будете знать, как дорабатывать свой запрос, повышать уровень LLM или менять его, уверенно предоставляя продукт пользователям.
Предварительные требования
У вас должен быть некоторый опыт работы с программами магистратуры в области права (LLM). Мы предполагаем, что вы уже хорошо знакомы со следующими темами:
- Основы LLM: детерминизм против вероятностных механизмов , галлюцинации , структурированные результаты , температура .
- Оперативные инженерные методы .
- Основы генеративного ИИ: поставщики моделей, платформы , эталонные показатели и таблицы лидеров.