ออกแบบการประเมิน

กำหนดลักษณะของ "ดี" และ "ไม่ดี" สำหรับแอปพลิเคชัน AI ของคุณ

ก่อนออกแบบการทดสอบ ให้ดูเอาต์พุตที่สมบูรณ์แบบทั่วไปจาก ThemeBuilder การประเมินแต่ละครั้งจะประมวลผลออบเจ็กต์เวอร์ชันหนึ่งๆ ดังนี้

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

กำหนดความสำเร็จและความล้มเหลว

ขั้นตอนแรกในการสร้างการประเมินคือการกำหนดความสำเร็จและความล้มเหลว โดยคุณต้องมีความคุ้นเคยกับข้อมูลและเข้าใจว่าเอาต์พุตที่ผิดพลาด มีแนวโน้มที่จะปรากฏในการผลิต หากมี ให้ตรวจสอบข้อมูลเวอร์ชันที่ใช้งานจริง

ตัวอย่างเอาต์พุตที่ผิดพลาดสำหรับ ThemeBuilder มีดังนี้

  • โครงสร้างข้อมูลไม่ถูกต้อง
    • JSON ไม่ถูกต้อง ไม่มีคีย์
    • ค่าชุดสีไม่ใช่เลขฐานสิบหก
    • คำขวัญหรือสีบางสีเป็นสตริงว่าง
    • คำขวัญยาวเกินขีดจำกัด 6 คำที่เรากำหนดไว้
  • คำขวัญที่ไม่ดี
    • คำขวัญไม่ตรงกับแบรนด์ กลุ่มเป้าหมาย หรือน้ำเสียง
    • คำขวัญนี้เป็นพิษ
  • ชุดสีไม่ถูกต้อง
    • ชุดสีไม่ตรงกับแบรนด์ กลุ่มเป้าหมาย หรือโทน
    • อัตราส่วนคอนทราสต์ของสีข้อความกับพื้นหลังน้อยกว่า 4.5

ข้อมูลจากผู้ใช้ตัวอย่าง

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

เอาต์พุต: ข้อมูลไม่ถูกต้อง

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

เอาต์พุต: คำขวัญไม่ดี

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

เอาต์พุต: ชุดสีไม่ดี

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

กำหนดเกณฑ์และวิธีการประเมิน

คุณกำหนดเกณฑ์และวิธีการประเมินได้โดยพิจารณาจากสาเหตุที่เอาต์พุตไม่เป็นไปตามความคาดหวัง ดังนี้

  • หากต้องการทดสอบเกณฑ์วัตถุประสงค์ ให้สร้างการประเมินตามกฎ (ใช้โค้ดปกติ)
  • หากต้องการทดสอบเกณฑ์เชิงอัตวิสัย ให้ใช้โมเดลผู้ตัดสิน
เกณฑ์การประเมิน วิธีการประเมิน
รูปแบบข้อมูลถูกต้อง: JSON ที่ถูกต้อง, มีคีย์ทั้งหมด, สีฐาน 16, ไม่มีค่าว่าง, สโลแกนไม่เกิน 6 คำ อิงตามกฎ (วัตถุประสงค์)
อัตราส่วนคอนทราสต์สีข้อความกับพื้นหลังเข้าถึงได้ อิงตามกฎ
คำขวัญต้องสอดคล้องกับแบรนด์ กลุ่มเป้าหมาย และน้ำเสียง ผู้พิพากษา LLM (ขึ้นอยู่กับความคิดเห็นของแต่ละบุคคล)
ชุดสีตรงกับแบรนด์ กลุ่มเป้าหมาย และโทน ผู้พิพากษา LLM
คำขวัญไม่ได้เป็นพิษ ผู้พิพากษา LLM

เกณฑ์การให้คะแนน

ไม่มีคำขวัญหรือชุดสีที่สมบูรณ์แบบสำหรับครีเอทีฟโฆษณา ดังนั้น แทนที่จะเปรียบเทียบเอาต์พุตของ ThemeBuilder กับผลลัพธ์ในอุดมคติ ให้ระบุหลักเกณฑ์ที่ชัดเจนแก่ผู้พิพากษา

กรอบการทำงานที่สอดคล้องกันในการประเมินคุณภาพเชิงอัตวิสัยในการประเมินทุกครั้ง
// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

ใช้เกณฑ์เฉพาะงาน

นอกเหนือจากเมตริกเฉพาะกรณีการใช้งานแล้ว ให้ใช้เกณฑ์และเมตริกมาตรฐาน ที่เกี่ยวข้องกับงาน ตัวอย่างเช่น สำหรับการสรุป เมตริกที่ใช้กันทั่วไป ได้แก่

  • ความสอดคล้อง: ข้อมูลสรุปเป็นไปตามคำสั่ง ระดับภาษา หรือสไตล์ที่ผู้ใช้ระบุ
  • ความกระชับ: ข้อมูลสรุปจะบอกเฉพาะสิ่งที่จำเป็นและไม่มีข้อมูลอื่นเพิ่มเติม
  • ความสมบูรณ์: ข้อมูลสรุปมีประเด็นสำคัญทั้งหมด
  • ความถูกต้อง: ข้อมูลสรุปเป็นข้อเท็จจริงและเป็นความจริง
  • ความสมเหตุสมผล: การกล่าวอ้างทุกครั้งจะมีการตรวจสอบย้อนกลับไปยังแหล่งที่มาเพื่อป้องกันการหลอน

การประเมินที่สร้างไว้ล่วงหน้า

โซลูชันและเครื่องมือ Evals มีการประเมินที่มีการจัดการหรือเมตริกที่สร้างไว้ล่วงหน้าซึ่งอาจเหมาะกับ Use Case ของคุณ สำรวจฟีเจอร์ที่พร้อมใช้งาน