האם אתה יכול ליצור הערכות AI?

  1. למה אינטואיציה היא דרך לא מספקת למדידת האיכות של אפליקציות מבוססות-LLM?

  2. איזו מהאפשרויות הבאות היא דוגמה להערכה מבוססת-כללים עבור האפליקציה ThemeBuilder?

  3. מה המטרה העיקרית של שימוש בהערכה זוגית במקום בהערכה נקודתית?

  4. למה כדאי להגדיר את רמת האקראיות ל-0 כשמגדירים מודל שופט?

  5. מה המשמעות של התאמת יתר בצינור ההערכה?

  6. למה משמשת טכניקת ה-bootstrapping?

  7. איזה מדד משמש למדידת 'הסכמה מעבר למקריות' בין מומחים אנושיים או בין שופט לאדם?

  8. כשמעריכים רעילות, למה כדאי לתת עדיפות לשיעור ההחזרה (recall) על פני הדיוק (precision)?

  9. מהו דפוס קריטריון ההערכה הדינמי?