Het robots.txt
bestand vertelt zoekmachines welke pagina's van uw site ze kunnen crawlen. Een ongeldige robots.txt
-configuratie kan twee soorten problemen veroorzaken:
- Het kan voorkomen dat zoekmachines openbare pagina's crawlen, waardoor uw inhoud minder vaak in de zoekresultaten verschijnt.
- Het kan ervoor zorgen dat zoekmachines pagina's crawlen die u mogelijk niet in de zoekresultaten wilt laten zien.
Hoe de Lighthouse robots.txt
audit mislukt
Lighthouse markeert ongeldige robots.txt
-bestanden:
Vouw de robots.txt
is niet geldige audit uit in uw rapport om erachter te komen wat er mis is met uw robots.txt
.
Veel voorkomende fouten zijn onder meer:
-
No user-agent specified
-
Pattern should either be empty, start with "/" or "*"
-
Unknown directive
-
Invalid sitemap URL
-
$ should only be used at the end of the pattern
Lighthouse controleert niet of uw robots.txt
bestand zich op de juiste locatie bevindt. Om correct te kunnen functioneren, moet het bestand zich in de hoofdmap van uw domein of subdomein bevinden.
Hoe problemen met robots.txt
op te lossen
Zorg ervoor dat robots.txt
geen HTTP 5XX-statuscode retourneert
Als uw server een serverfout (een HTTP-statuscode in de 500s) voor robots.txt
retourneert, weten zoekmachines niet welke pagina's moeten worden gecrawld. Het is mogelijk dat ze stoppen met het crawlen van uw hele site, waardoor nieuwe inhoud niet kan worden geïndexeerd.
Om de HTTP-statuscode te controleren, opent u robots.txt
in Chrome en controleert u het verzoek in Chrome DevTools .
Houd robots.txt
kleiner dan 500 KiB
Zoekmachines stoppen mogelijk halverwege met het verwerken van robots.txt
als het bestand groter is dan 500 KiB. Dit kan de zoekmachine in verwarring brengen, waardoor uw site onjuist wordt gecrawld.
Om robots.txt
klein te houden, concentreert u zich minder op individueel uitgesloten pagina's en meer op bredere patronen. Als u bijvoorbeeld het crawlen van PDF-bestanden wilt blokkeren, mag u niet elk afzonderlijk bestand weigeren. In plaats daarvan kunt u alle URL's die .pdf
bevatten niet toestaan door disallow: /*.pdf
te gebruiken.
Herstel eventuele formaatfouten
- Alleen lege regels, opmerkingen en richtlijnen die overeenkomen met de indeling 'naam: waarde' zijn toegestaan in
robots.txt
. - Zorg ervoor dat
allow
endisallow
-waarden leeg zijn of beginnen met/
of*
. - Gebruik
$
niet midden in een waarde (sta bijvoorbeeldallow: /file$html
).
Zorg ervoor dat er een waarde is voor user-agent
Namen van user-agents om crawlers van zoekmachines te vertellen welke richtlijnen ze moeten volgen. U moet voor elk exemplaar van de user-agent
een waarde opgeven, zodat zoekmachines weten of ze de bijbehorende reeks richtlijnen moeten volgen.
Om een bepaalde crawler van een zoekmachine te specificeren, gebruikt u een user-agentnaam uit de gepubliceerde lijst. (Hier vindt u bijvoorbeeld de lijst van Google met user-agents die worden gebruikt voor het crawlen .)
Gebruik *
om alle anderszins ongeëvenaarde crawlers te matchen.
user-agent: disallow: /downloads/
Er is geen user-agent gedefinieerd.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Er zijn een algemene gebruikersagent en een magicsearchbot
gebruikersagent gedefinieerd.
Zorg ervoor dat er geen richtlijnen allow
of disallow
vóór user-agent
staan
Namen van gebruikersagenten definiëren de secties van uw robots.txt
bestand. Crawlers van zoekmachines gebruiken deze secties om te bepalen welke richtlijnen moeten worden gevolgd. Als u een richtlijn vóór de eerste naam van de user-agent plaatst, betekent dit dat geen enkele crawler deze zal volgen.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Geen enkele crawler van een zoekmachine leest de disallow: /downloads
richtlijn.
# start of file user-agent: * disallow: /downloads/
Het is alle zoekmachines niet toegestaan de map /downloads
te crawlen.
Crawlers van zoekmachines volgen alleen richtlijnen in de sectie met de meest specifieke user-agentnaam. Als u bijvoorbeeld richtlijnen heeft voor user-agent: *
en user-agent: Googlebot-Image
, volgt Googlebot Images alleen de richtlijnen in de sectie user-agent: Googlebot-Image
.
Geef een absolute URL op voor sitemap
Sitemapbestanden zijn een geweldige manier om zoekmachines op de hoogte te stellen van pagina's op uw website. Een sitemapbestand bevat doorgaans een lijst met de URL's op uw website, samen met informatie over wanneer deze voor het laatst zijn gewijzigd.
Als u ervoor kiest een sitemapbestand in robots.txt
in te dienen, zorg er dan voor dat u een absolute URL gebruikt.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml