¿Puedo crear evaluaciones con IA?

  1. ¿Por qué la intuición no es una forma suficiente de medir la calidad de las aplicaciones basadas en LLMs?

  2. ¿Cuál de las siguientes opciones es un ejemplo de evaluación basada en reglas para la aplicación de ThemeBuilder?

  3. ¿Cuál es el propósito principal de usar la evaluación por pares en lugar de la evaluación por puntos?

  4. Cuando configuras un modelo de juez, ¿por qué debes establecer la temperatura en 0?

  5. ¿Qué significa el sobreajuste en tu canalización de evaluación?

  6. ¿Para qué se usa la técnica de bootstrapping?

  7. ¿Qué métrica se usa para medir el "acuerdo más allá del azar" entre expertos humanos o entre un juez y un humano?

  8. Cuando se evalúa la toxicidad, ¿por qué se prioriza la recuperación por sobre la precisión?

  9. ¿Qué es el patrón de rúbrica dinámica?