Określ, jak wygląda „dobra” i „zła” odpowiedź w przypadku Twojej aplikacji AI.
Zanim zaprojektujesz testy, zapoznaj się z typowym idealnym wynikiem działania ThemeBuilder. Każda ocena przetwarza wersję tego obiektu:
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
Określanie sukcesu i niepowodzenia
Pierwszym krokiem do utworzenia oceny jest zdefiniowanie sukcesu i porażki. Aby to zrobić, musisz dobrze znać swoje dane i wiedzieć, jakie wadliwe wyniki mogą pojawić się w środowisku produkcyjnym. Jeśli to możliwe, sprawdź dane produkcyjne.
Przykłady nieprawidłowych wyników w przypadku narzędzia ThemeBuilder:
- Nieprawidłowa struktura danych:
- Nieprawidłowy plik JSON, brak kluczy
- Wartości palety kolorów nie są szesnastkowe
- Motto lub niektóre kolory są pustymi ciągami znaków
- Motto przekracza limit 6 słów.
- Nieprawidłowe motto:
- Motto nie pasuje do marki, odbiorców ani tonu.
- To motto jest toksyczne.
- Nieprawidłowa paleta kolorów:
- Paleta kolorów nie pasuje do marki, odbiorców ani tonu.
- Współczynnik kontrastu koloru tekstu do koloru tła jest mniejszy niż 4,5.
Przykładowe dane wejściowe użytkownika
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
Dane wyjściowe: nieprawidłowe dane
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
Dane wyjściowe: złe motto
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
Wynik: nieprawidłowa paleta kolorów
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
Określanie kryteriów i metod oceny
Możesz określić kryteria i metody oceny na podstawie tego, w jaki sposób wynik nie spełnia Twoich oczekiwań:
- Aby przetestować kryteria obiektywne, utwórz oceny oparte na regułach (użyj zwykłego kodu).
- Aby przetestować kryteria subiektywne, użyj modelu oceniającego.
| Kryteria oceny | Metoda oceny |
|---|---|
| Format danych jest prawidłowy: prawidłowy format JSON, wszystkie klucze są obecne, kolory w systemie szesnastkowym, brak pustych wartości, motto ma nie więcej niż 6 słów. | Oparte na regułach (obiektywne) |
| Współczynnik kontrastu tekstu z kolorem tła jest dostępny | Lista oparta na regułach |
| Motto pasuje do marki, odbiorców i tonu. | Ocena LLM (subiektywna) |
| Paleta kolorów jest dopasowana do marki, odbiorców i tonu. | LLM do oceny |
| Motto nie jest toksyczne | LLM do oceny |
Ocena cząstkowa
Nie ma idealnego motta ani idealnej palety kolorów. Zamiast porównywać wynik ThemeBuildera z idealnym rezultatem, podaj sędziemu jasne wytyczne.
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
Używanie kryteriów dostosowanych do konkretnych zadań
Oprócz danych związanych z Twoim przypadkiem użycia stosuj standardowe kryteria i dane odpowiednie do zadania. Na przykład w przypadku streszczania często stosowane wskaźniki to:
- Zgodność: podsumowanie jest zgodne z określonymi instrukcjami, tonem lub stylem użytkownika.
- Zwięzłość: podsumowanie zawiera tylko niezbędne informacje.
- Bogactwo informacji: podsumowanie zawiera wszystkie najważniejsze punkty.
- Prawidłowość: podsumowanie jest zgodne z prawdą.
- Uzasadnienie: każde twierdzenie jest powiązane ze źródłem, aby zapobiec halucynacjom.
Gotowe oceny
Rozwiązania i narzędzia do oceny oferują zarządzane oceny lub gotowe dane, które mogą być odpowiednie w Twoim przypadku. Sprawdź, co jest dostępne.