Llegaste al final de nuestro curso sobre evaluaciones de IA. Asignaste tus conocimientos existentes sobre pruebas web al mundo de los LLM, creaste pruebas unitarias basadas en reglas, compilaste y probaste tu modelo de juez, y conectaste tu canalización de pruebas.
A nuestra industria le preocupan las vibras y el no determinismo de los LLMs. En realidad, si alguna vez creaste una app web que debe funcionar a la perfección en todos los navegadores, dispositivos y tamaños de pantalla, ya estás preparado para esto. Una entrada que genera varios comportamientos posibles, un entorno que no puedes controlar por completo y el infame "Funciona en mi máquina".
La solución está en fase de prueba. Las evaluaciones son exactamente eso: pruebas para tus funciones basadas en IA. Las pruebas web te brindaron la confianza necesaria para lanzar tu producto en entornos de navegadores diversos, y las evaluaciones hacen lo mismo con tus funciones basadas en IA. Crea tus evaluaciones y lánzalas.
Antes de comenzar, tómate un momento para hacerte algunas preguntas clave: ¿Qué hace que un resultado sea "malo"? Define tus casos de falla. Familiarízate con tus datos y colabora estrechamente con los expertos en el dominio. ¿Qué hace que un resultado sea "bueno" en lugar de "ideal"? Define tus expectativas con claridad antes de pedirle a un modelo que las califique. ¿Con qué frecuencia ejecutarás las evaluaciones? El desarrollo basado en la evaluación es un enfoque que puedes adoptar, pero establece expectativas sobre la frecuencia con la que realizarás evaluaciones después de implementar tu aplicación.
El espacio de la IA avanza rápidamente, y crear una canalización completa puede ser abrumador. Comienza de a poco: Escribe una prueba basada en reglas y crea un juez básico de LLM. Una vez que establezcas esa referencia, dejarás de suponer y recuperarás tu poder como ingeniero. Superas la brecha entre un prototipo interno divertido y una función sólida que puedes probar, medir y lanzar con confianza. Recuerda que las evaluaciones creadas por humanos están sujetas a las limitaciones humanas. El sesgo está integrado. Implementa auditorías periódicas de tus modelos y evaluaciones para abordar el sesgo.
Sigue este curso para crear tus primeras pruebas, consultar el código complementario y comenzar a realizar pruebas. Comparte lo que aprendiste: ¿Cómo realizas tus evaluaciones? Comunícate con nosotros en @ChromiumDev, comparte tus ideas en BlueSky o programa una sesión de consulta individual con el equipo de IA de Web.dev.