O arquivo robots.txt
informa aos mecanismos de pesquisa quais das páginas do site eles podem
engatinhar. Uma configuração de robots.txt
inválida pode causar dois tipos de problemas:
- Ela pode impedir que os mecanismos de pesquisa rastreiem páginas públicas, o que faz com que conteúdo apareça com menos frequência nos resultados da pesquisa.
- Pode fazer com que os mecanismos de pesquisa rastreiem páginas que talvez você não queira que apareçam na pesquisa resultados.
Como a auditoria robots.txt
do Lighthouse é reprovada
As sinalizações do Lighthouse são inválidas.
Arquivos robots.txt
:
Abra a auditoria robots.txt
não é válida no relatório.
para saber o que há de errado com o robots.txt
.
Erros comuns incluem:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
O Lighthouse não verifica se o arquivo robots.txt
é
no local correto. Para funcionar corretamente, o arquivo deve estar na raiz do
seu domínio ou subdomínio.
Como corrigir problemas com o robots.txt
Verifique se robots.txt
não retorna um código de status HTTP 5XX
Se o servidor retornar um erro de servidor (um código de status HTTP
nos anos 500) para robots.txt
, os mecanismos de pesquisa não saberão quais páginas devem ser
rastejava. Eles podem interromper o rastreamento de todo o site, o que impede novos
para que esse conteúdo seja indexado.
Para verificar o código de status HTTP, abra robots.txt
no Chrome e
verifique a solicitação no Chrome DevTools.
Mantenha robots.txt
abaixo de 500 KiB
Os mecanismos de pesquisa podem interromper o processamento de robots.txt
no meio se o arquivo for
com mais de 500 KiB. Isso pode confundir o mecanismo de pesquisa, resultando em erros
o rastreamento do seu site.
Para manter o robots.txt
pequeno, concentre-se menos nas páginas excluídas individualmente e mais
em padrões mais amplos. Por exemplo, se você precisar bloquear o rastreamento de arquivos PDF,
não bloqueiam cada arquivo. Em vez disso, bloqueie todos os URLs que contenham
.pdf
usando disallow: /*.pdf
.
Corrigir erros de formatação
- Somente linhas vazias, comentários e diretivas correspondentes a "name: value" formatos são
permitido em
robots.txt
. - Verifique se os valores
allow
edisallow
estão vazios ou começam com/
ou*
. - Não use
$
no meio de um valor (por exemplo,allow: /file$html
).
Verifique se há um valor para user-agent
Nomes de user agents para informar aos rastreadores dos mecanismos de pesquisa quais diretivas devem ser seguidas. Você
precisa fornecer um valor para cada instância de user-agent
para que os mecanismos de pesquisa saibam
se o conjunto de diretivas associado deve ser seguido.
Para especificar um determinado rastreador de mecanismo de pesquisa, use um nome de user agent de seu lista publicada. Por exemplo, aqui está Lista do Google de user agents usados para rastreamento
Use *
para corresponder todos os rastreadores sem correspondência.
user-agent: disallow: /downloads/
Nenhum user agent definido.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Foram definidos um user agent geral e um user agent magicsearchbot
.
Verifique se não há diretivas allow
ou disallow
antes de user-agent
Os nomes dos user agents definem as seções do seu arquivo robots.txt
. Mecanismo de pesquisa
os rastreadores usam essas seções para determinar quais diretivas devem ser seguidas. Colocar um
antes do primeiro nome do user agent significa que nenhum rastreador seguirá
reimplantá-lo.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Nenhum rastreador de mecanismo de pesquisa lerá a diretiva disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Nenhum mecanismo de pesquisa está proibido de rastrear a pasta /downloads
.
Os rastreadores de mecanismos de pesquisa só seguem as diretivas na seção com mais
um nome de agente de usuário específico. Por exemplo, se você tiver diretivas para
user-agent: *
e user-agent: Googlebot-Image
, o Googlebot Images
siga as diretivas na seção user-agent: Googlebot-Image
.
Forneça um URL absoluto para sitemap
Arquivos de sitemap são é uma ótima maneira de informar os mecanismos de pesquisa sobre as páginas do seu site. Um arquivo de sitemap geralmente inclui uma lista de os URLs do seu site, além de informações sobre quando foram os últimos mudou.
Se você optar por enviar um arquivo de sitemap em robots.txt
,
use um URL absoluto.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml