Mit der Datei robots.txt
können Suchmaschinen ermitteln, welche Seiten deiner Website sie zulassen können.
zu crawlen. Eine ungültige robots.txt
-Konfiguration kann zwei Arten von Problemen verursachen:
- Es kann verhindern, dass Suchmaschinen öffentliche Seiten crawlen, was dazu führen kann, dass die Inhalte seltener in den Suchergebnissen angezeigt werden.
- Dies kann dazu führen, dass Suchmaschinen Seiten crawlen, die du nicht in der Suche anzeigen lassen möchtest. Ergebnisse.
So scheitert die Lighthouse-Prüfung robots.txt
Lighthouse-Flags sind ungültig
robots.txt
-Dateien:
Maximieren Sie die Prüfung robots.txt
ist ungültig in Ihrem Bericht
um zu sehen, was mit deinem robots.txt
nicht stimmt.
Häufige Fehler:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse prüft nicht, ob deine robots.txt
-Datei
an der richtigen Stelle platziert. Damit die Datei ordnungsgemäß funktioniert, muss sie sich im Stammverzeichnis des
Ihre Domain oder Subdomain verwenden.
Probleme mit robots.txt
beheben
Achte darauf, dass robots.txt
keinen HTTP 5XX-Statuscode zurückgibt
Wenn Ihr Server einen Serverfehler zurückgibt, also einen HTTP-Statuscode
im 500er-Format) für robots.txt
, können Suchmaschinen nicht erkennen, welche Seiten
gecrawlt wurde. Es könnte sein, dass sie das Crawling Ihrer gesamten Website beenden, wodurch neue
dass bestimmte Inhalte nicht indexiert werden.
Um den HTTP-Statuscode zu sehen, öffne robots.txt
in Chrome und
überprüfen Sie die Anfrage in den Chrome-Entwicklertools.
robots.txt
muss kleiner als 500 KiB sein
Suchmaschinen beenden die Verarbeitung von robots.txt
möglicherweise in der Mitte, wenn die Datei
die größer als 500 KiB sind. Dies kann die Suchmaschine verwirren, was zu falschen
Crawling eurer Website.
Um robots.txt
klein zu halten, konzentrieren Sie sich weniger auf einzeln ausgeschlossene Seiten und mehr
auf breiter gefasste Muster. Wenn Sie beispielsweise das Crawlen von PDF-Dateien blockieren möchten,
nicht jede einzelne Datei verbieten. Lassen Sie stattdessen alle URLs zu, die
.pdf
mit disallow: /*.pdf
.
Alle Formatfehler beheben
- Nur leere Zeilen, Kommentare und Anweisungen, die mit „name: value“ übereinstimmen Format sind
in
robots.txt
zulässig. - Die Werte
allow
unddisallow
müssen entweder leer sein oder mit/
oder*
beginnen. - Verwenden Sie
$
nicht in der Mitte eines Werts (z. B.allow: /file$html
).
Geben Sie einen Wert für user-agent
ein
User-Agent-Namen, um Suchmaschinen-Crawlern mitzuteilen, welche Anweisungen zu befolgen sind. Ich
muss für jede Instanz von user-agent
einen Wert angeben, damit Suchmaschinen erkennen,
ob die zugehörigen Anweisungen befolgt werden sollen.
Um einen bestimmten Suchmaschinen-Crawler anzugeben, verwenden Sie einen User-Agent-Namen aus der zugehörigen der veröffentlichten Liste. (Zum Beispiel Liste der zum Crawling verwendeten User-Agents
Verwende *
, um Übereinstimmungen mit allen anderen Crawlern zu finden, die nicht zugeordnet werden können.
user-agent: disallow: /downloads/
Es ist kein User-Agent definiert.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Ein allgemeiner User-Agent und ein magicsearchbot
-User-Agent sind definiert.
Vor dem user-agent
dürfen keine allow
- oder disallow
-Anweisungen vorhanden sein
User-Agent-Namen definieren die Abschnitte der Datei robots.txt
. Suchmaschine
verwenden die Crawler diese Abschnitte, um zu bestimmen, welche Anweisungen befolgt werden sollen. Das Platzieren eines
before dem ersten User-Agent-Namen bedeutet, dass keine Crawler
.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Die Anweisung disallow: /downloads
wird von keinem Suchmaschinen-Crawler gelesen.
# start of file user-agent: * disallow: /downloads/
Alle Suchmaschinen dürfen den Ordner /downloads
nicht crawlen.
Suchmaschinen-Crawler folgen nur den Anweisungen in dem Abschnitt mit den meisten
User-Agent-Namen. Wenn Sie beispielsweise Anweisungen für
user-agent: *
und user-agent: Googlebot-Image
, der Googlebot-Images
Folgen Sie den Anweisungen im Abschnitt user-agent: Googlebot-Image
.
Geben Sie eine absolute URL für sitemap
an
Sitemap-Dateien sind eine tolle Möglichkeit, Suchmaschinen über die Seiten auf Ihrer Website zu informieren. Eine Sitemap-Datei enthält in der Regel eine Liste die URLs auf Ihrer Website, zusammen mit Informationen darüber, wann sie zuletzt geändert.
Wenn du eine Sitemap-Datei in robots.txt
einreichst, achte darauf,
Verwenden Sie eine absolute URL.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml