Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

הכירו את AI Evals: אל תנחשו, תמדדו

הקסם של מודלים מסוג LLM עשוי לפתות אותנו לדלג על בדיקות, אבל הערכות הן המפתח לפרסום מוצרים בביטחון.

Maud Nalpas

נניח שאתם יוצרים אב טיפוס של כלי לבניית עיצובים לאתרים. זה כלי כיפי: באפליקציית אינטרנט, משתמש מזין שם חברה ותיאור, קהל יעד, טון ומצב רוח. הקצה הקדמי שולח את זה לשרת שלכם. השרת משתמש במודל שפה גדול (LLM) כדי ליצור סיסמה קליטה שתתאים לטון ולמצב הרוח הרצויים, ופלטת צבעים נגישה שתתאים למותג. הנתונים האלה מוחזרים כאובייקט JSON קטן.

נקרא לאפליקציה הזו ThemeBuilder.

קלטים ופלטים של ThemeBuilder. — ב-ThemeBuilder מוצג עיצוב לדוגמה לחברה Midnight Coffee. האפליקציה משתמשת בשם החברה, בתיאור, בקהל ובטון כדי ליצור סיסמה ופלטת צבעים.

בוחרים מודל LLM בסיסי ומשפרים את ההנחיה. המעצב הפנימי שלך אוהב את לוחות הצבעים, והסיסמאות נשמעות קליטות.

עכשיו יש לכם את השאלות הבאות:

האם האפליקציה מוכנה לסביבת הייצור? אתם לא יודעים אם איכות הפלט של האפליקציה שלכם עקבית מספיק. חלק מהבודקים הפנימיים מדווחים על פלטות צבעים פגומות או על סיסמאות שלא תואמות למותג. אחרי שפותרים בעיה אחת, מופיעות עוד שתי בעיות.
האם אפשר להחליף מודלים? כדי לחסוך בזמן טעינה, כדאי לשדרג לגרסה העדכנית של אותו מודל שפה גדול (LLM), או לעבור משירות מנוהל למודל באירוח עצמי כדי להפחית עלויות. אתם לא יודעים אם זה ישפר או ירע את התוצאה של האפליקציה, ואין לכם דרך לבדוק אם יש רגרסיות.
האם בטוח לשלוח את המכשיר? מישהו דיווח על פלט רעיל פעם אחת, אבל אתם לא מצליחים לשחזר אותו. האם זה מקרה חד-פעמי או שצריך לחסום את ההשקה?

הצוות שלכם מפסיק את ההשקה כי איכות הפלט של ה-LLM משתנה יותר מדי. קשה לבנות את הביטחון שצריך כדי לשלוח בלי בדיקות.

למה לנחש במקום לבדוק?

כשמתחילים לבנות באמצעות AI, קל להתפתות להסתכל על כמה פלטים, להחליט שהם נראים בסדר ולהמשיך הלאה. למה כדאי להסתמך על אינטואיציה במקום על מדידות ונתונים?

לאלגוריתמים דטרמיניסטיים יש פלט אחד לכל קלט. לאלגוריתמים הסתברותיים יש כמה פלטים אפשריים לכל קלט.

סביר להניח שהסיבה לכך היא שמודלים של שפה גדולה הם הסתברותיים ולא דטרמיניסטיים. המשמעות היא שאפילו אם תספקו את אותו שם חברה, תיאור, קהל וסגנון, יכול להיות ש-ThemeBuilder יפיק מוטו ולוח צבעים שונים.

אין תשובה נכונה אחת לשאלה מהי סיסמה קליטה או פלטת צבעים שמתאימה למותג.

היצירתיות של מודלי LLM היא מעולה. אבל אי-דטרמיניזם לא מסתדר עם הרעיון של הנדסה. לכן, אפשר להסיק שאפליקציות מבוססות-LLM כנראה לא ניתנות לבדיקה.

הערכות מצילות את המצב

בעולם של מודלים גדולים של שפה (LLM), השיטות המומלצות לפיתוח עדיין תקפות. אנחנו יכולים וצריכים לבדוק את האפליקציות שמבוססות על LLM. אנחנו פשוט צריכים טכניקות שונות. הטכניקות האלה נקראות הערכות, או evals בקיצור. הערכות כוללות תהליכי עבודה חדשים, אבל הידע הקיים שלכם בבדיקות רלוונטי גם ליצירת הערכות מצוינות.

הערכות הן בדיקות לתכונות מבוססות-AI. הבדיקות האלה עוזרות לכם ליצור לולאת משוב מרכזית: אם תבנו פייפליין חזק של הערכות, התכונות שמבוססות על LLM יפעלו בצורה טובה עבור המשתמשים שלכם. כך הצוות שלכם יוכל לשחרר את התכונות בביטחון.

אם אתם מפתחים באמצעות מודלים גדולים של שפה (LLM), כדאי להשקיע זמן בהטמעה של הערכות חזקות.

עכשיו נלמד על הערכות!

מה תלמדו

הכירו את AI Evals: אל תנחשו, תמדדו קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

למה לנחש במקום לבדוק?

הערכות מצילות את המצב

הכירו את AI Evals: אל תנחשו, תמדדו