רשימה חלקית של מקורות שנעשה בהם שימוש בקורס הזה ובכלי ההערכה שיכולים לעזור לכם.
למידע נוסף על בדיקות ו-AI, מומלץ לעיין במקורות המידע הבאים.
- לומדים על בדיקות: משפרים את הגישה לבדיקות.
- לומדים על AI: עיצוב מערכות AI לאתרים ולאפליקציות אינטרנט.
- Google DeepMind Evals: כמה כלי השוואה סטנדרטיים לסוגים שונים של מודלים
- ספר ההדרכה בנושא הערכות של Gemini: מתכונים לניסוי והערכה של מודלים של AI גנרטיבי באמצעות Vertex AI.
- ערכת כלים לאתיקה של בינה מלאכותית: הערכת בטיחות של מודלים ומערכות.
- הערכת ההערכות: שיעור מטא שמסביר איך להבין באילו הערכות כדאי להשתמש ומה עובד בצורה יעילה.
- יצירת מדדים טובים יותר ל-AI: כמה בודקים מספיקים? להבין מסגרת להערכת מודלים של למידת מכונה שמבצעת אופטימיזציה של האיזון בין מספר הפריטים לבין מספר המדרגים לכל פריט, כדי ליצור מדדי השוואה של AI שניתנים לשחזור.
מקורות הקורס
הסתמכנו על כמה מקורות כדי לכתוב את הסדרה הזו, כולל:
- AI Engineering: Building Applications with Foundation Models, Chip Huyen
- De-risking QA for LLM-powered applications מאת Michael Hablich, כלי פיתוח ל-Chrome
- Using LLM-as-a-Judge For Evaluation: A Complete Guide מאת Hamel Husain
כלים להערכה
דוגמאות לפתרונות ולכלים להערכות:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- שירות להערכת AI גנרטיבי ו- API
- בדיקת הערכות
- JudgeLM
- LangSmith
- Evaluation harness
- OpenEvals
יש עוד הרבה כלים להערכה. אם אתם משתמשים בכלים אחרים, נשמח לשמוע עליהם.