Xác định thế nào là "tốt" và "xấu" đối với ứng dụng AI của bạn.
Trước khi thiết kế các kiểm thử, hãy xem xét một đầu ra hoàn hảo điển hình từ ThemeBuilder. Mỗi quy trình đánh giá sẽ xử lý một phiên bản của đối tượng này:
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
Xác định thành công và thất bại
Bước đầu tiên để tạo một bản đánh giá là xác định thành công và thất bại. Để làm như vậy, bạn phải nắm rõ dữ liệu của mình; hiểu rõ những đầu ra bị lỗi có khả năng xuất hiện trong quá trình sản xuất. Xem xét dữ liệu sản xuất (nếu có).
Sau đây là một số ví dụ về đầu ra bị lỗi của ThemeBuilder:
- Cấu trúc dữ liệu không chính xác:
- JSON không hợp lệ, thiếu khoá
- Giá trị bảng màu không phải là giá trị thập lục phân
- Phương châm hoặc một số màu là chuỗi trống
- Phương châm dài hơn giới hạn 6 từ mà chúng tôi đặt ra.
- Khẩu hiệu không phù hợp:
- Phương châm không phù hợp với thương hiệu, đối tượng hoặc giọng điệu.
- Phương châm này có tính độc hại.
- Bảng màu không hợp lệ:
- Bảng màu không phù hợp với thương hiệu, đối tượng hoặc giọng điệu.
- Tỷ lệ tương phản giữa màu văn bản và màu nền nhỏ hơn 4,5.
Ví dụ về hoạt động đầu vào của người dùng
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
Đầu ra: Dữ liệu không chính xác
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
Đầu ra: Khẩu hiệu không phù hợp
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
Đầu ra: Bảng màu kém
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
Xác định tiêu chí và phương pháp đánh giá
Bạn có thể xác định tiêu chí và phương pháp đánh giá dựa trên cách một kết quả không đáp ứng được kỳ vọng của bạn:
- Để kiểm thử tiêu chí khách quan, hãy tạo các bản đánh giá dựa trên quy tắc (sử dụng mã thông thường).
- Để kiểm thử các tiêu chí chủ quan, hãy sử dụng một mô hình đánh giá.
| Tiêu chí đánh giá | Phương pháp đánh giá |
|---|---|
| Định dạng dữ liệu chính xác: JSON hợp lệ, có tất cả các khoá, màu thập lục phân, không có giá trị trống, phương châm có dưới 6 từ | Dựa trên quy tắc (mục tiêu) |
| Tỷ lệ tương phản giữa màu văn bản và màu nền có thể truy cập | Dựa trên quy tắc |
| Khẩu hiệu phù hợp với thương hiệu, đối tượng và giọng điệu | Giám khảo LLM (mang tính chủ quan) |
| Bảng màu phù hợp với thương hiệu, đối tượng và giọng điệu | Giám khảo LLM |
| Phương châm không độc hại | Giám khảo LLM |
Tiêu chí chấm điểm
Không có phương châm sáng tạo hay bảng màu nào là hoàn hảo. Vì vậy, thay vì so sánh kết quả của ThemeBuilder với kết quả lý tưởng, hãy cung cấp cho giám khảo các nguyên tắc rõ ràng.
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
Sử dụng tiêu chí dành riêng cho từng nhiệm vụ
Bên cạnh các chỉ số cụ thể theo trường hợp sử dụng, hãy sử dụng các tiêu chí và chỉ số tiêu chuẩn liên quan đến nhiệm vụ. Ví dụ: đối với tóm tắt, các chỉ số phổ biến bao gồm:
- Mức độ phù hợp: Bản tóm tắt tuân theo hướng dẫn, giọng điệu hoặc phong cách cụ thể của người dùng.
- Ngắn gọn: Bản tóm tắt chỉ nêu những gì cần thiết và không có gì khác.
- Đầy đủ: Bản tóm tắt bao gồm tất cả các điểm chính.
- Tính chính xác: Bản tóm tắt có tính thực tế và chính xác.
- Tính xác thực: Mọi tuyên bố đều được truy xuất nguồn gốc để ngăn chặn thông tin sai lệch.
Đánh giá được tạo sẵn
Các giải pháp và công cụ đánh giá cung cấp các chỉ số được quản lý hoặc được tạo sẵn có thể phù hợp với trường hợp sử dụng của bạn. Khám phá những nội dung có sẵn.