Pouvez-vous créer des évaluations d'IA ?

  1. Pourquoi l'intuition ne suffit-elle pas à mesurer la qualité des applications basées sur des LLM ?

  2. Laquelle des propositions suivantes est un exemple d'évaluation basée sur des règles pour l'application ThemeBuilder ?

  3. Quel est l'objectif principal de l'utilisation de l'évaluation par paire au lieu de l'évaluation par point ?

  4. Lorsque vous configurez un modèle de juge, pourquoi devez-vous définir la température sur 0 ?

  5. Qu'est-ce que le surapprentissage dans votre pipeline d'évaluation ?

  6. À quoi sert la technique de bootstrapping ?

  7. Quelle métrique est utilisée pour mesurer l'accord au-delà du hasard entre des experts humains ou entre un juge et un humain ?

  8. Lors de l'évaluation de la toxicité, pourquoi privilégier le rappel plutôt que la précision ?

  9. Qu'est-ce que le modèle de grille d'évaluation dynamique ?