Conclusão

Você chegou ao fim do nosso curso sobre avaliações de IA. Você mapeou seu conhecimento atual de testes da Web para o mundo dos LLMs, criou testes de unidade baseados em regras, criou e testou seu modelo de avaliação e conectou seu pipeline de testes.

Nosso setor está preocupado com a vibe e o não determinismo dos LLMs. Na verdade, se você já criou um app da Web que precisa funcionar perfeitamente em navegadores, dispositivos e tamanhos de tela diferentes, já está preparado para isso. Uma entrada que leva a vários comportamentos possíveis, um ambiente que não pode ser totalmente controlado e o famoso "Funciona na minha máquina".

A solução está sendo testada. As avaliações são exatamente isso: testes para seus recursos de IA. Os testes da Web deram a você a confiança para enviar em ambientes de navegador selvagens, e as avaliações fazem o mesmo pelos seus recursos de IA. Crie suas avaliações e envie!

Antes de começar, faça algumas perguntas importantes: O que torna uma resposta "ruim"? Defina os casos de falha. Conheça bem seus dados e colabore de perto com especialistas no assunto. O que faz com que uma saída seja "boa" em vez de "ideal"? Defina suas expectativas com clareza antes de pedir que um modelo as classifique. Com que frequência você vai executar avaliações? O desenvolvimento orientado por avaliação é uma abordagem que você pode adotar, mas defina expectativas sobre a frequência com que você vai avaliar depois que o aplicativo for implantado.

O espaço da IA está em constante movimento, e criar um pipeline completo pode parecer difícil. Comece pequeno: escreva um teste baseado em regras e crie um avaliador básico de LLM. Depois de estabelecer essa base, você para de adivinhar e recupera seu poder como engenheiro. Você cruza a lacuna de um protótipo interno divertido para um recurso robusto que pode ser testado, medido e lançado com confiança. As avaliações criadas por humanos estão sujeitas a falhas humanas. O viés é integrado. Implante auditorias e avaliações regulares dos seus modelos para lidar com o viés.

Siga este curso para criar seus primeiros testes, conferir o código complementar e começar a testar. Compartilhe o que você aprendeu: como você está executando suas avaliações? Entre em contato com a gente em @ChromiumDev, compartilhe no BlueSky ou agende um horário de atendimento individual com a equipe de IA do Web.dev.