Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

עיצוב ההערכות

מגדירים מה נחשב ל'טוב' ומה נחשב ל'רע' באפליקציית ה-AI שלכם.

Maud Nalpas

לפני שמתכננים את הבדיקות, כדאי לעיין בפלט המושלם האופייני של ThemeBuilder. כל הערכה מעבדת גרסה של האובייקט הזה:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

הגדרת הצלחה וכישלון

השלב הראשון ביצירת הערכה הוא הגדרה של הצלחה וכישלון. כדי לעשות זאת, אתם צריכים להכיר את הנתונים שלכם ולהבין אילו פלטות שגויות צפויות להופיע בסביבת הייצור. אם יש נתונים של סביבת הייצור, כדאי לבדוק אותם.

דוגמאות לפלט שגוי ב-ThemeBuilder:

מבנה נתונים שגוי:
- ‫JSON לא תקין, מפתחות חסרים
- הערכים של לוח הצבעים לא הקסדצימליים
- הסיסמה או חלק מהצבעים הם מחרוזות ריקות
- המוטו ארוך יותר מהמגבלה שהגדרנו של 6 מילים.
סיסמה לא טובה:
- המוטו לא תואם למותג, לקהל או לטון.
- המוטו רעיל.
לוח צבעים שגוי:
- לוח הצבעים לא תואם למותג, לקהל או לטון.
- יחס הניגודיות בין צבע הטקסט לצבע הרקע נמוך מ-4.5.

קלט של משתמשים לדוגמה

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

פלט: נתונים שגויים

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

פלט: סיסמה לא טובה

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

פלט: לוח צבעים לא טוב

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

הגדרת קריטריונים ושיטות להערכה

אתם יכולים להגדיר קריטריונים ושיטות להערכה, על סמך האופן שבו הפלט לא עומד בציפיות שלכם:

כדי לבדוק את הקריטריונים האובייקטיביים, יוצרים הערכות מבוססות-כללים (משתמשים בקוד רגיל).
כדי לבדוק את הקריטריונים הסובייקטיביים, משתמשים במודל שופט.

קריטריוני הערכה	שיטת ההערכה
פורמט הנתונים תקין: JSON תקין, כל המפתחות קיימים, צבעים הקסדצימליים, אין ערכים ריקים, המוטו הוא עד שש מילים	מבוסס-כללים (יעד)
יחס הניגודיות בין צבע הטקסט לצבע הרקע נגיש	מבוססת-כללים
הסיסמה מתאימה למותג, לקהל ולטון	שופט LLM (סובייקטיבי)
לוח הצבעים תואם למותג, לקהל ולטון	שופט LLM
המוטו לא רעיל	שופט LLM

קריטריון הערכה

אין דבר כזה מוטו קריאייטיב או לוח צבעים מושלמים. לכן, במקום להשוות את הפלט של ThemeBuilder לתוצאה אידיאלית, כדאי לספק לשופט הנחיות ברורות.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

שימוש בקריטריונים ספציפיים למשימה

בנוסף למדדים הספציפיים לתרחיש השימוש, צריך להשתמש בקריטריונים ובמדדים רגילים שרלוונטיים למשימה. לדוגמה, במקרה של סיכום, מדדים נפוצים כוללים:

התאמה: הסיכום תואם להוראות, לסגנון או לטון שצוינו על ידי המשתמש.
תמציתיות: הסיכום מכיל רק את מה שצריך ולא יותר.
עושר: הסיכום כולל את כל הנקודות החשובות.
נכונות: הסיכום מבוסס על עובדות ואמיתי.
התבססות על מקורות: כל טענה מבוססת על מקור כדי למנוע הזיות.

הערכות מוכנות מראש

פתרונות וכלים להערכה מציעים הערכות מנוהלות או מדדים מוכנים מראש שעשויים להתאים לתרחיש השימוש שלכם. כדאי לעיין באפשרויות הזמינות.

מודל מנטלי

הערכות מבוססות-כללים