Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Projetar suas avaliações

Defina o que é "bom" e "ruim" para seu aplicativo de IA.

Maud Nalpas

Antes de criar seus testes, confira uma saída perfeita típica do ThemeBuilder. Cada avaliação processa uma versão deste objeto:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

Definir sucesso e falha

A primeira etapa para criar uma avaliação é definir sucesso e falha. Para isso, você precisa conhecer seus dados e entender quais saídas com falha provavelmente vão aparecer na produção. Se disponível, revise os dados de produção.

Exemplos de saídas com falha para o ThemeBuilder incluem:

Estrutura de dados incorreta:
- JSON inválido, chaves ausentes
- Os valores da paleta de cores não são hexadecimais
- O lema ou algumas cores são strings vazias
- O lema é maior que o limite definido de seis palavras.
Lema ruim:
- O lema não corresponde à marca, ao público-alvo ou ao tom.
- O lema é tóxico.
Paleta de cores ruim:
- A paleta de cores não corresponde à marca, ao público-alvo ou ao tom.
- A taxa de contraste de cores do texto para o plano de fundo é menor que 4,5.

Exemplo de entrada do usuário

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

Saída: dados incorretos

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

Saída: lema ruim

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

Saída: paleta de cores ruim

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

Definir critérios e métodos de avaliação

Você pode definir critérios e métodos de avaliação com base em como uma saída não atende às suas expectativas:

Para testar os critérios objetivos, crie avaliações baseadas em regras (use código normal).
Para testar os critérios subjetivos, use um modelo de avaliação.

Critérios de avaliação	Método de avaliação
O formato de dados está correto: JSON válido, todas as chaves presentes, cores hexadecimais, sem valores vazios, o lema tem menos de seis palavras	Baseado em regras (objetivo)
A taxa de contraste de cores do texto para o plano de fundo é acessível	Baseado em regras
O lema corresponde à marca, ao público-alvo e ao tom	Avaliação de LLM (subjetiva)
A paleta de cores corresponde à marca, ao público-alvo e ao tom	Avaliação de LLM
O lema não é tóxico	Avaliação de LLM

Rubrica

Não existe um lema criativo ou uma paleta de cores perfeitos. Então, em vez de comparar a saída do ThemeBuilder a um resultado ideal, forneça diretrizes claras para a avaliação.

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

Usar critérios específicos da tarefa

Além das métricas específicas do caso de uso, use critérios e métricas padrão relevantes para a tarefa. Por exemplo, para resumo, as métricas comuns incluem:

Alinhamento: o resumo segue instruções, tom ou estilo específicos do usuário.
Concisão: o resumo diz apenas o que é necessário e nada mais.
Riqueza: o resumo inclui todos os pontos principais.
Correção: o resumo é factual e verdadeiro.
Fundamentação: cada declaração é rastreada até a origem para evitar alucinações.

Avaliações pré-criadas

As soluções e ferramentas de avaliações oferecem avaliações gerenciadas ou métricas pré-criadas que podem se adequar ao seu caso de uso. Confira o que está disponível.

Modelo mental

Avançar

Avaliações baseadas em regras