Неполный список источников, использованных в этом курсе, и инструментов оценки, которые могут вам помочь.
Для получения дополнительных материалов по тестированию и искусственному интеллекту мы рекомендуем следующие ресурсы.
- Изучение тестирования : обновите свой подход к тестированию.
- Изучите ИИ : создавайте системы искусственного интеллекта для своих веб-сайтов и веб-приложений.
- Google DeepMind Evals : Множество стандартизированных инструментов для сравнительного анализа различных типов моделей.
- Руководство по оценке Gemini : Рецепты для экспериментирования и оценки моделей генеративного ИИ с помощью Vertex AI.
- Инструментарий ответственного использования ИИ : оценка моделей и систем на предмет безопасности.
- Оценка эффективности ваших оценок : Краткий обзор того, как понять, какие оценки использовать и что действительно работает.
- Создание более качественных эталонных тестов для ИИ: сколько оценщиков достаточно? Разберитесь в структуре оценки моделей машинного обучения, которая оптимизирует компромисс между количеством элементов и оценщиков для каждого элемента, чтобы создавать воспроизводимые эталонные тесты для ИИ.
Источники курса
При написании этой серии статей мы опирались на несколько источников, в том числе:
- Разработка приложений с использованием искусственного интеллекта: создание приложений на основе базовых моделей, Чип Хуен
- Снижение рисков в тестировании приложений на основе LLM от Майкла Хаблиха, Chrome DevTools
- Использование дипломированных юристов в качестве экспертов для оценки: полное руководство Хамеля Хусейна.
Инструменты оценки
Примеры решений и инструментов для оценки включают:
- AlignEval
- Аризе
- Мозговой центр
- Датадог
- DeepEval
- Сервис оценки Gen AI и API
- Проверка оценок
- JudgeLM
- ЛангСмит
- Оценочный комплект
- OpenEvals
Существует множество других инструментов для оценки. Если вы используете другие инструменты, поделитесь ими с нами .