Het robots.txt bestand vertelt zoekmachines welke pagina's van uw site ze kunnen crawlen. Een ongeldige robots.txt -configuratie kan twee soorten problemen veroorzaken:
- Het kan voorkomen dat zoekmachines openbare pagina's crawlen, waardoor uw inhoud minder vaak in de zoekresultaten verschijnt.
- Het kan ervoor zorgen dat zoekmachines pagina's crawlen die u mogelijk niet in de zoekresultaten wilt laten zien.
Hoe de Lighthouse robots.txt audit mislukt
Lighthouse markeert ongeldige robots.txt -bestanden:

Vouw de robots.txt is niet geldige audit uit in uw rapport om erachter te komen wat er mis is met uw robots.txt .
Veel voorkomende fouten zijn onder meer:
-
No user-agent specified -
Pattern should either be empty, start with "/" or "*" -
Unknown directive -
Invalid sitemap URL -
$ should only be used at the end of the pattern
Lighthouse controleert niet of uw robots.txt bestand zich op de juiste locatie bevindt. Om correct te kunnen functioneren, moet het bestand zich in de hoofdmap van uw domein of subdomein bevinden.
Hoe problemen met robots.txt op te lossen
Zorg ervoor dat robots.txt geen HTTP 5XX-statuscode retourneert
Als uw server een serverfout retourneert (een HTTP-statuscode in de 500s) voor robots.txt , weten zoekmachines niet welke pagina's moeten worden gecrawld. Het is mogelijk dat ze stoppen met het crawlen van uw hele site, waardoor nieuwe inhoud niet kan worden geïndexeerd.
Om de HTTP-statuscode te controleren, opent u robots.txt in Chrome en controleert u het verzoek in Chrome DevTools .
Houd robots.txt kleiner dan 500 KiB
Zoekmachines stoppen mogelijk halverwege met het verwerken van robots.txt als het bestand groter is dan 500 KiB. Dit kan de zoekmachine in verwarring brengen, waardoor uw site onjuist wordt gecrawld.
Om robots.txt klein te houden, concentreert u zich minder op individueel uitgesloten pagina's en meer op bredere patronen. Als u bijvoorbeeld het crawlen van PDF-bestanden wilt blokkeren, mag u niet elk afzonderlijk bestand weigeren. In plaats daarvan kunt u alle URL's die .pdf bevatten niet toestaan door disallow: /*.pdf te gebruiken.
Herstel eventuele formaatfouten
- Alleen lege regels, opmerkingen en richtlijnen die overeenkomen met de indeling 'naam: waarde' zijn toegestaan in
robots.txt. - Zorg ervoor dat
allowendisallow-waarden leeg zijn of beginnen met/of*. - Gebruik
$niet midden in een waarde (sta bijvoorbeeldallow: /file$html).
Zorg ervoor dat er een waarde is voor user-agent
Namen van user-agents om crawlers van zoekmachines te vertellen welke richtlijnen ze moeten volgen. U moet voor elk exemplaar van de user-agent een waarde opgeven, zodat zoekmachines weten of ze de bijbehorende reeks richtlijnen moeten volgen.
Om een bepaalde crawler van een zoekmachine te specificeren, gebruikt u een user-agentnaam uit de gepubliceerde lijst. (Hier vindt u bijvoorbeeld de lijst van Google met user-agents die worden gebruikt voor het crawlen .)
Gebruik * om alle anderszins ongeëvenaarde crawlers te matchen.
user-agent: disallow: /downloads/
Er is geen user-agent gedefinieerd.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Er zijn een algemene user-agent en een magicsearchbot user-agent gedefinieerd.
Zorg ervoor dat er geen richtlijnen allow of disallow vóór user-agent staan
Namen van gebruikersagenten definiëren de secties van uw robots.txt bestand. Crawlers van zoekmachines gebruiken deze secties om te bepalen welke richtlijnen moeten worden gevolgd. Het plaatsen van een richtlijn vóór de eerste naam van de user-agent betekent dat geen enkele crawler deze zal volgen.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Geen enkele crawler van een zoekmachine leest de disallow: /downloads richtlijn.
# start of file user-agent: * disallow: /downloads/
Het is alle zoekmachines niet toegestaan de map /downloads te crawlen.
Crawlers van zoekmachines volgen alleen richtlijnen in de sectie met de meest specifieke user-agentnaam. Als u bijvoorbeeld richtlijnen heeft voor user-agent: * en user-agent: Googlebot-Image , volgt Googlebot Images alleen de richtlijnen in de sectie user-agent: Googlebot-Image .
Geef een absolute URL op voor sitemap
Sitemapbestanden zijn een geweldige manier om zoekmachines op de hoogte te stellen van pagina's op uw website. Een sitemapbestand bevat doorgaans een lijst met de URL's op uw website, samen met informatie over wanneer deze voor het laatst zijn gewijzigd.
Als u ervoor kiest een sitemapbestand in robots.txt in te dienen, zorg er dan voor dat u een absolute URL gebruikt.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml