กำหนดลักษณะของ "ดี" และ "ไม่ดี" สำหรับแอปพลิเคชัน AI ของคุณ
ก่อนออกแบบการทดสอบ ให้ดูเอาต์พุตที่สมบูรณ์แบบโดยทั่วไปจาก ThemeBuilder การประเมินแต่ละครั้งจะประมวลผลออบเจ็กต์เวอร์ชันนี้
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
กำหนดความสำเร็จและความล้มเหลว
ขั้นตอนแรกในการสร้างการประเมินคือการกำหนดความสำเร็จและความล้มเหลว ซึ่งคุณต้องคุ้นเคยกับข้อมูลและเข้าใจว่าเอาต์พุตที่ผิดพลาดมีแนวโน้มที่จะปรากฏในเวอร์ชันที่ใช้งานจริง และตรวจสอบข้อมูลเวอร์ชันที่ใช้งานจริง (หากมี)
ตัวอย่างเอาต์พุตที่ผิดพลาดสำหรับ ThemeBuilder ได้แก่
- โครงสร้างข้อมูลไม่ถูกต้อง
- JSON ไม่ถูกต้อง, ไม่มีคีย์
- ค่าชุดสีไม่ใช่เลขฐานสิบหก
- สโลแกนหรือสีบางสีเป็นสตริงว่าง
- สโลแกนมีความยาวเกินขีดจำกัดที่กำหนดไว้ที่ 6 คำ
- สโลแกนไม่ดี
- สโลแกนไม่ตรงกับแบรนด์ กลุ่มเป้าหมาย หรือระดับภาษา
- สโลแกนเป็นพิษ
- ชุดสีไม่ดี
- ชุดสีไม่ตรงกับแบรนด์ กลุ่มเป้าหมาย หรือระดับภาษา
- อัตราส่วนคอนทราสต์ของสีข้อความกับสีพื้นหลังน้อยกว่า 4.5
ข้อมูลจากผู้ใช้ตัวอย่าง
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
เอาต์พุต: ข้อมูลไม่ถูกต้อง
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
เอาต์พุต: สโลแกนไม่ดี
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
เอาต์พุต: ชุดสีไม่ดี
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
กำหนดเกณฑ์และวิธีการประเมิน
คุณสามารถกำหนดเกณฑ์และวิธีการประเมินตามวิธีที่เอาต์พุตไม่ตรงตามความคาดหวังของคุณได้ดังนี้
- หากต้องการทดสอบเกณฑ์เชิงวัตถุ ให้สร้างการประเมินตามกฎ (ใช้โค้ดปกติ)
- หากต้องการทดสอบเกณฑ์เชิงอัตวิสัย ให้ใช้โมเดลผู้ประเมิน
| เกณฑ์การประเมิน | วิธีการประเมิน |
|---|---|
| รูปแบบข้อมูลถูกต้อง: JSON ที่ถูกต้อง, มีคีย์ทั้งหมด, สีเลขฐานสิบหก, ไม่มีค่าว่าง, สโลแกนมีไม่เกิน 6 คำ | อิงตามกฎ (เชิงวัตถุ) |
| อัตราส่วนคอนทราสต์ของสีข้อความกับสีพื้นหลังเข้าถึงได้ | อิงตามกฎ |
| สโลแกนตรงกับแบรนด์ กลุ่มเป้าหมาย และระดับภาษา | ผู้ประเมิน LLM (เชิงอัตวิสัย) |
| ชุดสีตรงกับแบรนด์ กลุ่มเป้าหมาย และระดับภาษา | ผู้ประเมิน LLM |
| สโลแกนไม่เป็นพิษ | ผู้ประเมิน LLM |
เกณฑ์การให้คะแนน
ไม่มีสโลแกนหรือชุดสีที่สร้างสรรค์ที่สมบูรณ์แบบ ดังนั้นแทนที่จะเปรียบเทียบเอาต์พุตของ ThemeBuilder กับผลลัพธ์ที่เหมาะ ให้ระบุหลักเกณฑ์ที่ชัดเจนแก่ผู้ประเมิน
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
ใช้เกณฑ์เฉพาะงาน
นอกเหนือจากเมตริกเฉพาะ Use Case แล้ว ให้ใช้เกณฑ์และเมตริกมาตรฐานที่เกี่ยวข้องกับงาน ตัวอย่างเช่น สำหรับ การสรุป, เมตริกที่พบบ่อย ได้แก่
- การจัดแนว: สรุปเป็นไปตามวิธีการเฉพาะของผู้ใช้ ระดับภาษา หรือสไตล์
- ความกระชับ: สรุปมีเพียงข้อมูลที่จำเป็นเท่านั้น
- ความสมบูรณ์: สรุปมีประเด็นสำคัญทั้งหมด
- ความถูกต้อง: สรุปเป็นข้อเท็จจริงและถูกต้อง
- ความน่าเชื่อถือ: ทุกการอ้างสิทธิ์จะตรวจสอบย้อนกลับไปยังแหล่งที่มาเพื่อป้องกันการหลอน
การประเมินที่สร้างไว้ล่วงหน้า
โซลูชันและเครื่องมือการประเมินมีการประเมินที่มีการจัดการหรือเมตริกที่สร้างไว้ล่วงหน้าที่อาจเหมาะกับ Use Case ของคุณ สำรวจสิ่งที่พร้อมใช้งาน