กำหนดลักษณะของ "ดี" และ "ไม่ดี" สำหรับแอปพลิเคชัน AI ของคุณ
ก่อนออกแบบการทดสอบ ให้ดูเอาต์พุตที่สมบูรณ์แบบทั่วไปจาก ThemeBuilder การประเมินแต่ละครั้งจะประมวลผลออบเจ็กต์เวอร์ชันหนึ่งๆ ดังนี้
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
กำหนดความสำเร็จและความล้มเหลว
ขั้นตอนแรกในการสร้างการประเมินคือการกำหนดความสำเร็จและความล้มเหลว โดยคุณต้องมีความคุ้นเคยกับข้อมูลและเข้าใจว่าเอาต์พุตที่ผิดพลาด มีแนวโน้มที่จะปรากฏในการผลิต หากมี ให้ตรวจสอบข้อมูลเวอร์ชันที่ใช้งานจริง
ตัวอย่างเอาต์พุตที่ผิดพลาดสำหรับ ThemeBuilder มีดังนี้
- โครงสร้างข้อมูลไม่ถูกต้อง
- JSON ไม่ถูกต้อง ไม่มีคีย์
- ค่าชุดสีไม่ใช่เลขฐานสิบหก
- คำขวัญหรือสีบางสีเป็นสตริงว่าง
- คำขวัญยาวเกินขีดจำกัด 6 คำที่เรากำหนดไว้
- คำขวัญที่ไม่ดี
- คำขวัญไม่ตรงกับแบรนด์ กลุ่มเป้าหมาย หรือน้ำเสียง
- คำขวัญนี้เป็นพิษ
- ชุดสีไม่ถูกต้อง
- ชุดสีไม่ตรงกับแบรนด์ กลุ่มเป้าหมาย หรือโทน
- อัตราส่วนคอนทราสต์ของสีข้อความกับพื้นหลังน้อยกว่า 4.5
ข้อมูลจากผู้ใช้ตัวอย่าง
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
เอาต์พุต: ข้อมูลไม่ถูกต้อง
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
เอาต์พุต: คำขวัญไม่ดี
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
เอาต์พุต: ชุดสีไม่ดี
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
กำหนดเกณฑ์และวิธีการประเมิน
คุณกำหนดเกณฑ์และวิธีการประเมินได้โดยพิจารณาจากสาเหตุที่เอาต์พุตไม่เป็นไปตามความคาดหวัง ดังนี้
- หากต้องการทดสอบเกณฑ์วัตถุประสงค์ ให้สร้างการประเมินตามกฎ (ใช้โค้ดปกติ)
- หากต้องการทดสอบเกณฑ์เชิงอัตวิสัย ให้ใช้โมเดลผู้ตัดสิน
| เกณฑ์การประเมิน | วิธีการประเมิน |
|---|---|
| รูปแบบข้อมูลถูกต้อง: JSON ที่ถูกต้อง, มีคีย์ทั้งหมด, สีฐาน 16, ไม่มีค่าว่าง, สโลแกนไม่เกิน 6 คำ | อิงตามกฎ (วัตถุประสงค์) |
| อัตราส่วนคอนทราสต์สีข้อความกับพื้นหลังเข้าถึงได้ | อิงตามกฎ |
| คำขวัญต้องสอดคล้องกับแบรนด์ กลุ่มเป้าหมาย และน้ำเสียง | ผู้พิพากษา LLM (ขึ้นอยู่กับความคิดเห็นของแต่ละบุคคล) |
| ชุดสีตรงกับแบรนด์ กลุ่มเป้าหมาย และโทน | ผู้พิพากษา LLM |
| คำขวัญไม่ได้เป็นพิษ | ผู้พิพากษา LLM |
เกณฑ์การให้คะแนน
ไม่มีคำขวัญหรือชุดสีที่สมบูรณ์แบบสำหรับครีเอทีฟโฆษณา ดังนั้น แทนที่จะเปรียบเทียบเอาต์พุตของ ThemeBuilder กับผลลัพธ์ในอุดมคติ ให้ระบุหลักเกณฑ์ที่ชัดเจนแก่ผู้พิพากษา
กรอบการทำงานที่สอดคล้องกันในการประเมินคุณภาพเชิงอัตวิสัยในการประเมินทุกครั้ง// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
ใช้เกณฑ์เฉพาะงาน
นอกเหนือจากเมตริกเฉพาะกรณีการใช้งานแล้ว ให้ใช้เกณฑ์และเมตริกมาตรฐาน ที่เกี่ยวข้องกับงาน ตัวอย่างเช่น สำหรับการสรุป เมตริกที่ใช้กันทั่วไป ได้แก่
- ความสอดคล้อง: ข้อมูลสรุปเป็นไปตามคำสั่ง ระดับภาษา หรือสไตล์ที่ผู้ใช้ระบุ
- ความกระชับ: ข้อมูลสรุปจะบอกเฉพาะสิ่งที่จำเป็นและไม่มีข้อมูลอื่นเพิ่มเติม
- ความสมบูรณ์: ข้อมูลสรุปมีประเด็นสำคัญทั้งหมด
- ความถูกต้อง: ข้อมูลสรุปเป็นข้อเท็จจริงและเป็นความจริง
- ความสมเหตุสมผล: การกล่าวอ้างทุกครั้งจะมีการตรวจสอบย้อนกลับไปยังแหล่งที่มาเพื่อป้องกันการหลอน
การประเมินที่สร้างไว้ล่วงหน้า
โซลูชันและเครื่องมือ Evals มีการประเมินที่มีการจัดการหรือเมตริกที่สร้างไว้ล่วงหน้าซึ่งอาจเหมาะกับ Use Case ของคุณ สำรวจฟีเจอร์ที่พร้อมใช้งาน