robots.txt não é válido

O arquivo robots.txt informa aos mecanismos de pesquisa quais das páginas do site eles podem engatinhar. Uma configuração de robots.txt inválida pode causar dois tipos de problemas:

  • Ela pode impedir que os mecanismos de pesquisa rastreiem páginas públicas, o que faz com que conteúdo apareça com menos frequência nos resultados da pesquisa.
  • Pode fazer com que os mecanismos de pesquisa rastreiem páginas que talvez você não queira que apareçam na pesquisa resultados.

Como a auditoria robots.txt do Lighthouse é reprovada

As sinalizações do Lighthouse são inválidas. Arquivos robots.txt:

Auditoria do Lighthouse mostrando um robots.txt inválido

Abra a auditoria robots.txt não é válida no relatório. para saber o que há de errado com o robots.txt.

Erros comuns incluem:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

O Lighthouse não verifica se o arquivo robots.txt é no local correto. Para funcionar corretamente, o arquivo deve estar na raiz do seu domínio ou subdomínio.

Como corrigir problemas com o robots.txt

Verifique se robots.txt não retorna um código de status HTTP 5XX

Se o servidor retornar um erro de servidor (um código de status HTTP nos anos 500) para robots.txt, os mecanismos de pesquisa não saberão quais páginas devem ser rastejava. Eles podem interromper o rastreamento de todo o site, o que impede novos para que esse conteúdo seja indexado.

Para verificar o código de status HTTP, abra robots.txt no Chrome e verifique a solicitação no Chrome DevTools.

Mantenha robots.txt abaixo de 500 KiB

Os mecanismos de pesquisa podem interromper o processamento de robots.txt no meio se o arquivo for com mais de 500 KiB. Isso pode confundir o mecanismo de pesquisa, resultando em erros o rastreamento do seu site.

Para manter o robots.txt pequeno, concentre-se menos nas páginas excluídas individualmente e mais em padrões mais amplos. Por exemplo, se você precisar bloquear o rastreamento de arquivos PDF, não bloqueiam cada arquivo. Em vez disso, bloqueie todos os URLs que contenham .pdf usando disallow: /*.pdf.

Corrigir erros de formatação

  • Somente linhas vazias, comentários e diretivas correspondentes a "name: value" formatos são permitido em robots.txt.
  • Verifique se os valores allow e disallow estão vazios ou começam com / ou *.
  • Não use $ no meio de um valor (por exemplo, allow: /file$html).

Verifique se há um valor para user-agent

Nomes de user agents para informar aos rastreadores dos mecanismos de pesquisa quais diretivas devem ser seguidas. Você precisa fornecer um valor para cada instância de user-agent para que os mecanismos de pesquisa saibam se o conjunto de diretivas associado deve ser seguido.

Para especificar um determinado rastreador de mecanismo de pesquisa, use um nome de user agent de seu lista publicada. Por exemplo, aqui está Lista do Google de user agents usados para rastreamento

Use * para corresponder todos os rastreadores sem correspondência.

O que não fazer
user-agent:
disallow: /downloads/

Nenhum user agent definido.

O que fazer
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Foram definidos um user agent geral e um user agent magicsearchbot.

Verifique se não há diretivas allow ou disallow antes de user-agent

Os nomes dos user agents definem as seções do seu arquivo robots.txt. Mecanismo de pesquisa os rastreadores usam essas seções para determinar quais diretivas devem ser seguidas. Colocar um antes do primeiro nome do user agent significa que nenhum rastreador seguirá reimplantá-lo.

O que não fazer
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Nenhum rastreador de mecanismo de pesquisa lerá a diretiva disallow: /downloads.

O que fazer
# start of file
user-agent: *
disallow: /downloads/

Nenhum mecanismo de pesquisa está proibido de rastrear a pasta /downloads.

Os rastreadores de mecanismos de pesquisa só seguem as diretivas na seção com mais um nome de agente de usuário específico. Por exemplo, se você tiver diretivas para user-agent: * e user-agent: Googlebot-Image, o Googlebot Images siga as diretivas na seção user-agent: Googlebot-Image.

Forneça um URL absoluto para sitemap

Arquivos de sitemap são é uma ótima maneira de informar os mecanismos de pesquisa sobre as páginas do seu site. Um arquivo de sitemap geralmente inclui uma lista de os URLs do seu site, além de informações sobre quando foram os últimos mudou.

Se você optar por enviar um arquivo de sitemap em robots.txt, use um URL absoluto.

O que não fazer
sitemap: /sitemap-file.xml
O que fazer
sitemap: https://example.com/sitemap-file.xml

Recursos