האם אתה יכול ליצור הערכות AI?

  1. למה אינטואיציה היא דרך לא מספקת למדידת האיכות של אפליקציות מבוססות-LLM?

  2. איזו מהאפשרויות הבאות היא דוגמה להערכה מבוססת-כללים עבור האפליקציה ThemeBuilder?

  3. מה המטרה העיקרית של שימוש בהערכה זוגית במקום בהערכה נקודתית?

  4. למה כדאי להגדיר את רמת האקראיות ל-0 כשמגדירים מודל שופט?

  5. מה המשמעות של התאמת יתר בצינור ההערכה?

  6. למה משמשת טכניקת ה-bootstrapping?

  7. איזה מדד משמש למדידת 'הסכמה מעבר למקריות' בין מומחים אנושיים או בין שופט לאדם?

  8. כשמעריכים רעילות, למה חשוב יותר להתמקד בזיכרון מאשר בדיוק?

  9. מהו דפוס קריטריון ההערכה הדינמי?