Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Fontes e ferramentas

Lista não exaustiva de fontes usadas neste curso e ferramentas de avaliação que podem ajudar você.

Maud Nalpas

Para mais recursos sobre testes e IA, recomendamos o seguinte:

Aprenda a testar: atualize sua abordagem de testes.
Aprenda sobre IA: crie sistemas de IA para seus sites e aplicativos da Web.
Google DeepMind Evals: várias ferramentas de benchmarking padronizadas para diferentes tipos de modelos
Playbook de avaliações do Gemini: receitas para testar e avaliar modelos de IA generativa com a Vertex AI.
Toolkit de IA responsável: avalie modelos e sistemas de segurança.
Como avaliar suas avaliações: Uma metalição sobre como entender quais avaliações usar e o que funciona de maneira eficaz.
Como criar benchmarks de IA melhores: quantos avaliadores são suficientes? Entenda uma estrutura de avaliação para modelos de ML que otimiza a compensação entre o número de itens e avaliadores por item para criar benchmarks de IA reproduzíveis.

Fontes do curso

Usamos várias fontes para escrever esta série, incluindo:

AI Engineering: Building Applications with Foundation Models, Chip Huyen (link em inglês)
De-risking QA for LLM-powered applications by Michael Hablich, Chrome DevTools (link em inglês)
Using LLM-as-a-Judge For Evaluation: A Complete Guide by Hamel Husain (link em inglês)

Exemplos de soluções e ferramentas de avaliação incluem:

Há muitas outras ferramentas de avaliação disponíveis. Se você estiver usando outras ferramentas, compartilhe-as conosco.