Lista não exaustiva de fontes usadas neste curso e ferramentas de avaliação que podem ajudar você.
Para mais recursos sobre testes e IA, recomendamos o seguinte:
- Aprenda a testar: atualize sua abordagem de testes.
- Aprenda sobre IA: crie sistemas de IA para seus sites e aplicativos da Web.
- Google DeepMind Evals: várias ferramentas de benchmarking padronizadas para diferentes tipos de modelos
- Playbook de avaliações do Gemini: receitas para testar e avaliar modelos de IA generativa com a Vertex AI.
- Toolkit de IA responsável: avalie modelos e sistemas de segurança.
- Como avaliar suas avaliações: Uma metalição sobre como entender quais avaliações usar e o que funciona de maneira eficaz.
- Como criar benchmarks de IA melhores: quantos avaliadores são suficientes? Entenda uma estrutura de avaliação para modelos de ML que otimiza a compensação entre o número de itens e avaliadores por item para criar benchmarks de IA reproduzíveis.
Fontes do curso
Usamos várias fontes para escrever esta série, incluindo:
- AI Engineering: Building Applications with Foundation Models, Chip Huyen (link em inglês)
- De-risking QA for LLM-powered applications by Michael Hablich, Chrome DevTools (link em inglês)
- Using LLM-as-a-Judge For Evaluation: A Complete Guide by Hamel Husain (link em inglês)
Ferramentas de avaliação
Exemplos de soluções e ferramentas de avaliação incluem:
- AlignEval
- Arize (link em inglês)
- Braintrust (link em inglês)
- Datadog
- DeepEval
- Serviço de avaliação de IA generativa e API
- Inspect Evals (link em inglês)
- JudgeLM
- LangSmith
- Evaluation harness (link em inglês)
- OpenEvals
Há muitas outras ferramentas de avaliação disponíveis. Se você estiver usando outras ferramentas, compartilhe-as conosco.