Qué esperar de esta serie y qué debes saber antes de comenzar.
En esta serie, compilarás evaluaciones para nuestra aplicación de ejemplo, ThemeBuilder. Aprenderás a hacer lo siguiente:
- Compilar un flujo de trabajo de evaluación integral y sólido para que confíes en que puedes enviarlo a tus usuarios
- Usar el patrón de LLM como juez para medir la calidad subjetiva Crear un juez con una configuración mínima o usar técnicas avanzadas para desarrollar un juez personalizado que piense como expertos en el dominio superior
- Automatizar tu canalización ejecutando evaluaciones en el momento de la compilación (CI/CD) y en producción para detectar regresiones de forma temprana
- Aplicar técnicas que te brinden confianza estadística y demuestren que tus resultados no son solo un sorteo afortunado de tu grupo de pruebas, y optimizar el diseño de tus evaluaciones para detectar regresiones furtivas
- Usar evaluaciones para seleccionar el mejor modelo para tu caso de uso
Enfoque
Considera esta serie como tu punto de partida. Puedes compilar tu canalización de evaluaciones completa usando solo la guía principal, que se basa en las prácticas recomendadas estándar de la industria, y explorar técnicas más avanzadas cuando estés listo para subir de nivel.
Ya sea que uses una plataforma de evaluaciones lista para usar o compiles la tuya propia, los conceptos y las técnicas que aprenderás son independientes de la herramienta. Comprender el porqué detrás de ellos te ayuda a evitar trampas comunes y a desarrollar una canalización de evaluaciones experta, sin importar qué pila elijas.
Una vez que se complete, sabrás cómo iterar en tu instrucción, actualizar tu LLM o cambiar tu LLM mientras envías a tus usuarios con confianza.
Requisitos previos
Debes tener experiencia en la compilación con LLMs. Suponemos que ya te sientes cómodo con lo siguiente:
- Conceptos básicos de LLM: determinismo versus motores de probabilidad, alucinación, resultados estructurados, temperatura.
- Técnicas de ingeniería de instrucciones.
- Conceptos básicos de la IA generativa: proveedores de modelos, plataformas, comparativas y tablas de clasificación.