Deze pagina is vertaald door de Cloud Translation API.

robots.txt is niet geldig

Het robots.txt bestand vertelt zoekmachines welke pagina's van uw site ze kunnen crawlen. Een ongeldige robots.txt -configuratie kan twee soorten problemen veroorzaken:

Het kan voorkomen dat zoekmachines openbare pagina's crawlen, waardoor uw inhoud minder vaak in de zoekresultaten verschijnt.
Het kan ervoor zorgen dat zoekmachines pagina's crawlen die u mogelijk niet in de zoekresultaten wilt laten zien.

Hoe de Lighthouse `robots.txt` audit mislukt

Lighthouse markeert ongeldige robots.txt -bestanden:

Lighthouse-audit toont ongeldige robots.txt

Opmerking: de meeste Lighthouse-audits zijn alleen van toepassing op de pagina waarop u zich momenteel bevindt. Omdat robots.txt echter op hostnaamniveau wordt gedefinieerd, is deze audit van toepassing op uw gehele domein (of subdomein).

Vouw de robots.txt is niet geldige audit uit in uw rapport om erachter te komen wat er mis is met uw robots.txt .

Veel voorkomende fouten zijn onder meer:

No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern

Lighthouse controleert niet of uw robots.txt bestand zich op de juiste locatie bevindt. Om correct te kunnen functioneren, moet het bestand zich in de hoofdmap van uw domein of subdomein bevinden.

Hoe problemen met `robots.txt` op te lossen

Zorg ervoor dat `robots.txt` geen HTTP 5XX-statuscode retourneert

Als uw server een serverfout retourneert (een HTTP-statuscode in de 500s) voor robots.txt , weten zoekmachines niet welke pagina's moeten worden gecrawld. Het is mogelijk dat ze stoppen met het crawlen van uw hele site, waardoor nieuwe inhoud niet kan worden geïndexeerd.

Om de HTTP-statuscode te controleren, opent u robots.txt in Chrome en controleert u het verzoek in Chrome DevTools .

Houd `robots.txt` kleiner dan 500 KiB

Zoekmachines stoppen mogelijk halverwege met het verwerken van robots.txt als het bestand groter is dan 500 KiB. Dit kan de zoekmachine in verwarring brengen, waardoor uw site onjuist wordt gecrawld.

Om robots.txt klein te houden, concentreert u zich minder op individueel uitgesloten pagina's en meer op bredere patronen. Als u bijvoorbeeld het crawlen van PDF-bestanden wilt blokkeren, mag u niet elk afzonderlijk bestand weigeren. In plaats daarvan kunt u alle URL's die .pdf bevatten niet toestaan door disallow: /*.pdf te gebruiken.

Herstel eventuele formaatfouten

Alleen lege regels, opmerkingen en richtlijnen die overeenkomen met de indeling 'naam: waarde' zijn toegestaan in robots.txt .
Zorg ervoor dat allow en disallow -waarden leeg zijn of beginnen met / of * .
Gebruik $ niet midden in een waarde (sta bijvoorbeeld allow: /file$html ).

Zorg ervoor dat er een waarde is voor `user-agent`

Namen van user-agents om crawlers van zoekmachines te vertellen welke richtlijnen ze moeten volgen. U moet voor elk exemplaar van de user-agent een waarde opgeven, zodat zoekmachines weten of ze de bijbehorende reeks richtlijnen moeten volgen.

Om een bepaalde crawler van een zoekmachine te specificeren, gebruikt u een user-agentnaam uit de gepubliceerde lijst. (Hier vindt u bijvoorbeeld de lijst van Google met user-agents die worden gebruikt voor het crawlen .)

Gebruik * om alle anderszins ongeëvenaarde crawlers te matchen.

Niet doen

user-agent:
disallow: /downloads/

Er is geen user-agent gedefinieerd.

Doen

user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Er zijn een algemene user-agent en een magicsearchbot user-agent gedefinieerd.

Zorg ervoor dat er geen richtlijnen `allow` of `disallow` vóór `user-agent` staan

Namen van gebruikersagenten definiëren de secties van uw robots.txt bestand. Crawlers van zoekmachines gebruiken deze secties om te bepalen welke richtlijnen moeten worden gevolgd. Het plaatsen van een richtlijn vóór de eerste naam van de user-agent betekent dat geen enkele crawler deze zal volgen.

Niet doen

# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Geen enkele crawler van een zoekmachine leest de disallow: /downloads richtlijn.

Doen

# start of file
user-agent: *
disallow: /downloads/

Het is alle zoekmachines niet toegestaan de map /downloads te crawlen.

Crawlers van zoekmachines volgen alleen richtlijnen in de sectie met de meest specifieke user-agentnaam. Als u bijvoorbeeld richtlijnen heeft voor user-agent: * en user-agent: Googlebot-Image , volgt Googlebot Images alleen de richtlijnen in de sectie user-agent: Googlebot-Image .

Geef een absolute URL op voor `sitemap`

Sitemapbestanden zijn een geweldige manier om zoekmachines op de hoogte te stellen van pagina's op uw website. Een sitemapbestand bevat doorgaans een lijst met de URL's op uw website, samen met informatie over wanneer deze voor het laatst zijn gewijzigd.

Als u ervoor kiest een sitemapbestand in robots.txt in te dienen, zorg er dan voor dat u een absolute URL gebruikt.

Niet doen

sitemap: /sitemap-file.xml

Doen

sitemap: https://example.com/sitemap-file.xml

robots.txt is niet geldig Stay organized with collections Save and categorize content based on your preferences.

Hoe de Lighthouse robots.txt audit mislukt

Hoe problemen met robots.txt op te lossen

Zorg ervoor dat robots.txt geen HTTP 5XX-statuscode retourneert

Houd robots.txt kleiner dan 500 KiB

Herstel eventuele formaatfouten

Zorg ervoor dat er een waarde is voor user-agent

Zorg ervoor dat er geen richtlijnen allow ​​of disallow vóór user-agent staan

Geef een absolute URL op voor sitemap

Bronnen

robots.txt is niet geldig

Hoe de Lighthouse `robots.txt` audit mislukt

Hoe problemen met `robots.txt` op te lossen

Zorg ervoor dat `robots.txt` geen HTTP 5XX-statuscode retourneert

Houd `robots.txt` kleiner dan 500 KiB

Zorg ervoor dat er een waarde is voor `user-agent`

Zorg ervoor dat er geen richtlijnen `allow` of `disallow` vóór `user-agent` staan

Geef een absolute URL op voor `sitemap`