Эта страница переведена с помощью Cloud Translation API.

Заключение

Maud Nalpas

Alexandra Klepper

Вы завершили наш курс по оценке с помощью ИИ. Вы сопоставили свои существующие знания в области веб-тестирования с миром программ LLM, создали модульные тесты на основе правил, разработали и протестировали свою модель оценки и настроили конвейер тестирования.

В нашей отрасли обеспокоены «вайбами» и недетерминизмом LLM. На самом деле, если вы когда-либо создавали веб-приложение, которое должно безупречно работать во всех браузерах, устройствах и размерах экранах, вы к этому готовы. Один ввод приводит к множеству возможных вариантов поведения, среда, которую вы не можете полностью контролировать, и печально известное «Работает на моей машине».

Решение — тестирование. Оценочные тесты — это именно то, что они собой представляют: проверка функций вашего ИИ. Ваши веб-тесты дали вам уверенность в запуске продукта в различных браузерных средах, и оценочные тесты делают то же самое для функций вашего ИИ. Создавайте оценочные тесты и запускайте продукт!

Прежде чем приступить, уделите немного времени, чтобы задать себе несколько ключевых вопросов: Что делает результат «плохим»? Определите сценарии сбоев. Тщательно изучите свои данные и тесно сотрудничайте с экспертами в предметной области. Что отличает «хороший» результат от «идеального»? Четко определите свои ожидания, прежде чем просить модель оценить их. Как часто вы будете проводить оценки? Разработка, основанная на оценке, — это один из подходов, который вы можете использовать, но установите ожидания относительно того, как часто вы будете проводить оценки после развертывания вашего приложения.

Сфера ИИ развивается стремительно, и создание полноценного конвейера может показаться сложной задачей. Начните с малого: напишите один тест на основе правил и создайте один базовый LLM-судью. Как только вы установите этот базовый уровень, вы перестанете гадать и вернете себе контроль как инженер. Вы преодолеете разрыв между забавным внутренним прототипом и надежной функцией, которую можно тестировать, измерять и уверенно внедрять. Помните, что оценки, созданные людьми, подвержены человеческим недостаткам. Предвзятость заложена изначально . Регулярно проводите аудит ваших моделей и оценок, чтобы устранить предвзятость.

Пройдите этот курс, чтобы создать свои первые тесты, ознакомиться с сопутствующим кодом и начать тестирование. Поделитесь тем, что вы узнали: как вы проводите свои оценки? Свяжитесь с нами по адресу @ChromiumDev , поделитесь с нами в BlueSky или назначьте индивидуальные консультации с командой Web.dev AI .

Создайте экспертного судью.

Ресурсы курса

Заключение Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Заключение