Projektowanie ocen

Określ, jak wygląda „dobra” i „zła” odpowiedź w przypadku Twojej aplikacji AI.

Zanim zaprojektujesz testy, zapoznaj się z typowym idealnym wynikiem działania ThemeBuilder. Każda ocena przetwarza wersję tego obiektu:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

Określanie sukcesu i niepowodzenia

Pierwszym krokiem do utworzenia oceny jest zdefiniowanie sukcesu i porażki. Aby to zrobić, musisz dobrze znać swoje dane i wiedzieć, jakie wadliwe wyniki mogą pojawić się w środowisku produkcyjnym. Jeśli to możliwe, sprawdź dane produkcyjne.

Przykłady nieprawidłowych wyników w przypadku narzędzia ThemeBuilder:

  • Nieprawidłowa struktura danych:
    • Nieprawidłowy plik JSON, brak kluczy
    • Wartości palety kolorów nie są szesnastkowe
    • Motto lub niektóre kolory są pustymi ciągami znaków
    • Motto przekracza limit 6 słów.
  • Nieprawidłowe motto:
    • Motto nie pasuje do marki, odbiorców ani tonu.
    • To motto jest toksyczne.
  • Nieprawidłowa paleta kolorów:
    • Paleta kolorów nie pasuje do marki, odbiorców ani tonu.
    • Współczynnik kontrastu koloru tekstu do koloru tła jest mniejszy niż 4,5.

Przykładowe dane wejściowe użytkownika

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

Dane wyjściowe: nieprawidłowe dane

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

Dane wyjściowe: złe motto

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

Wynik: nieprawidłowa paleta kolorów

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

Określanie kryteriów i metod oceny

Możesz określić kryteria i metody oceny na podstawie tego, w jaki sposób wynik nie spełnia Twoich oczekiwań:

  • Aby przetestować kryteria obiektywne, utwórz oceny oparte na regułach (użyj zwykłego kodu).
  • Aby przetestować kryteria subiektywne, użyj modelu oceniającego.
Kryteria oceny Metoda oceny
Format danych jest prawidłowy: prawidłowy format JSON, wszystkie klucze są obecne, kolory w systemie szesnastkowym, brak pustych wartości, motto ma nie więcej niż 6 słów. Oparte na regułach (obiektywne)
Współczynnik kontrastu tekstu z kolorem tła jest dostępny Lista oparta na regułach
Motto pasuje do marki, odbiorców i tonu. Ocena LLM (subiektywna)
Paleta kolorów jest dopasowana do marki, odbiorców i tonu. LLM do oceny
Motto nie jest toksyczne LLM do oceny

Ocena cząstkowa

Nie ma idealnego motta ani idealnej palety kolorów. Zamiast porównywać wynik ThemeBuildera z idealnym rezultatem, podaj sędziemu jasne wytyczne.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

Używanie kryteriów dostosowanych do konkretnych zadań

Oprócz danych związanych z Twoim przypadkiem użycia stosuj standardowe kryteria i dane odpowiednie do zadania. Na przykład w przypadku streszczania często stosowane wskaźniki to:

  • Zgodność: podsumowanie jest zgodne z określonymi instrukcjami, tonem lub stylem użytkownika.
  • Zwięzłość: podsumowanie zawiera tylko niezbędne informacje.
  • Bogactwo informacji: podsumowanie zawiera wszystkie najważniejsze punkty.
  • Prawidłowość: podsumowanie jest zgodne z prawdą.
  • Uzasadnienie: każde twierdzenie jest powiązane ze źródłem, aby zapobiec halucynacjom.

Gotowe oceny

Rozwiązania i narzędzia do oceny oferują zarządzane oceny lub gotowe dane, które mogą być odpowiednie w Twoim przypadku. Sprawdź, co jest dostępne.