Ontwerp uw evaluaties

Definieer wat "goed" en "slecht" inhoudt voor jouw AI-toepassing.

Voordat je je tests ontwerpt, bekijk dan een typische, perfecte uitvoer van ThemeBuilder . Elke evaluatie verwerkt een versie van dit object:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

Definieer succes en mislukking.

De eerste stap bij het opstellen van een evaluatie is het definiëren van succes en mislukking. Hiervoor moet u uw gegevens kennen en begrijpen welke foutieve resultaten waarschijnlijk in de praktijk zullen voorkomen. Bekijk indien mogelijk de productiegegevens.

Voorbeelden van foutieve uitvoer voor ThemeBuilder zijn:

  • Onjuiste datastructuur:
    • Ongeldige JSON, ontbrekende sleutels
    • De waarden in het kleurenpalet zijn geen hexadecimale waarden.
    • Het motto of sommige kleuren zijn lege snaren.
    • Het motto is langer dan de door ons vastgestelde limiet van 6 woorden.
  • Slecht motto:
    • Het motto sluit niet aan bij het merk, de doelgroep of de toon.
    • Het motto is giftig.
  • Slecht kleurenpalet:
    • Het kleurenpalet sluit niet aan bij het merk, de doelgroep of de toon.
    • De contrastverhouding tussen tekst en achtergrondkleur is lager dan 4,5.

Voorbeeld van gebruikersinvoer

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

Uitvoer: Onjuiste gegevens

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

Uitkomst: Slecht motto

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

Uitvoer: Ongeldig kleurenpalet

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

Definieer evaluatiecriteria en -methoden.

U kunt evaluatiecriteria en -methoden definiëren op basis van de mate waarin een resultaat niet aan uw verwachtingen voldoet:

  • Om de objectieve criteria te testen, maak je op regels gebaseerde evaluaties (gebruik reguliere code).
  • Om de subjectieve criteria te toetsen, kunt u een beoordelingsmodel gebruiken.
Evaluatiecriteria Evaluatiemethode
Het gegevensformaat is correct: geldige JSON, alle sleutels aanwezig, hexadecimale kleuren, geen lege waarden, motto bestaat uit minder dan zes woorden. Op regels gebaseerd (objectief)
De contrastverhouding tussen tekst en achtergrondkleur is toegankelijk. Op regels gebaseerd
Het motto sluit aan bij het merk, de doelgroep en de toon. LLM-beoordelaar (subjectief)
Het kleurenpalet sluit aan bij het merk, de doelgroep en de gewenste sfeer. LLM-rechter
Het motto is niet giftig. LLM-rechter

Rubriek

Er bestaat niet zoiets als een perfect creatief motto of kleurenpalet. Vergelijk de output van ThemeBuilder daarom niet met een ideaal resultaat, maar geef de beoordelaar duidelijke richtlijnen.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

Gebruik taakspecifieke criteria

Gebruik naast de voor uw specifieke gebruikssituatie geldende meetwaarden ook standaardcriteria en meetwaarden die relevant zijn voor de taak. Voor een samenvatting zijn bijvoorbeeld de volgende meetwaarden gangbaar:

  • Afstemming : De samenvatting volgt specifieke gebruikersinstructies, toon of stijl.
  • Beknoptheid : De samenvatting zegt precies wat nodig is en niets meer.
  • Rijkdom : De samenvatting bevat alle belangrijke punten.
  • Correctheid : De samenvatting is feitelijk en waar.
  • Gefundeerdheid : Elke bewering wordt herleid tot de bron om misvattingen te voorkomen.

Vooraf opgestelde evaluaties

Evals-oplossingen en -tools bieden beheerde evaluaties of vooraf gedefinieerde meetwaarden die mogelijk geschikt zijn voor uw specifieke toepassing. Ontdek wat er beschikbaar is.