Liste non exhaustive des sources utilisées dans ce cours et des outils d'évaluation qui peuvent vous aider.
Pour obtenir d'autres ressources sur les tests et l'IA, nous vous recommandons les ressources suivantes.
- Learn Testing : actualisez votre approche des tests.
- Learn AI : concevez des systèmes d'IA pour vos sites Web et applications Web.
- Évaluations Google DeepMind : plusieurs outils de benchmarking standardisés pour différents types de modèles
- Playbook d'évaluations Gemini : recettes pour expérimenter et évaluer des modèles d'IA générative avec Vertex AI.
- Kit d'outils pour une IA responsable : évaluez la sécurité des modèles et des systèmes.
- Évaluer vos évaluations : métaleçon sur la façon de comprendre quelles évaluations utiliser et ce qui fonctionne efficacement.
- Créer de meilleurs benchmarks d'IA : combien d'évaluateurs sont nécessaires ? Comprendre un framework d'évaluation pour les modèles de ML qui optimise le compromis entre le nombre d'éléments et d'évaluateurs par élément, afin de créer des benchmarks d'IA reproductibles.
Sources de cours
Nous nous sommes appuyés sur plusieurs sources pour rédiger cette série, y compris :
- AI Engineering: Building Applications with Foundation Models, Chip Huyen
- Réduire les risques liés à l'assurance qualité pour les applications optimisées par les LLM, par Michael Hablich, Outils pour les développeurs Chrome
- Using LLM-as-a-Judge For Evaluation: A Complete Guide de Hamel Husain
Outils d'évaluation
Voici quelques exemples de solutions et d'outils d'évaluation :
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Service d'évaluation de l'IA générative et API
- Inspecter les évaluations
- JudgeLM
- LangSmith
- Harnais d'évaluation
- OpenEvals
De nombreux autres outils d'évaluation sont disponibles. Si vous utilisez d'autres outils, partagez-les avec nous.