Lista no exhaustiva de fuentes utilizadas en este curso y herramientas de evaluación que pueden ayudarte.
Para obtener más recursos sobre pruebas y la IA, te recomendamos los siguientes recursos.
- Learn Testing: Refresh your approach to testing
- Learn AI: Design AI systems for your websites and web applications
- Google DeepMind Evals: Multiple standardized benchmarking tools for different types on models
- Gemini Evaluations Playbook: Recipes for experimenting and evaluating generative AI models with Vertex AI.
- Responsible AI toolkit: Evaluate models and systems for safety.
- Evaluating your evals: A meta lesson on how to understand what evals to use, and what works effectively.
- Building better AI benchmarks: How many raters are enough? Understand an evaluation framework for ML models that optimizes the trade-off between the number of items and raters per item, to build reproducible AI benchmarks
Fuentes del curso
Nos basamos en varias fuentes para escribir esta serie, incluidas las siguientes:
- AI Engineering: Building Applications with Foundation Models, Chip Huyen
- De-risking QA for LLM-powered applications by Michael Hablich, Chrome DevTools
- Using LLM-as-a-Judge For Evaluation: A Complete Guide by Hamel Husain
Herramientas de evaluación
Estos son algunos ejemplos de soluciones y herramientas de evaluación:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Gen AI evaluation service and API
- Inspect Evals
- JudgeLM
- LangSmith
- Evaluation harness
- OpenEvals
Hay muchas más herramientas de evaluación disponibles. Si usas otras herramientas, compártelas con nosotros.