robots.txt ist ungültig.

Mit der Datei robots.txt können Suchmaschinen ermitteln, welche Seiten deiner Website sie zulassen können. zu crawlen. Eine ungültige robots.txt-Konfiguration kann zwei Arten von Problemen verursachen:

  • Es kann verhindern, dass Suchmaschinen öffentliche Seiten crawlen, was dazu führen kann, dass die Inhalte seltener in den Suchergebnissen angezeigt werden.
  • Dies kann dazu führen, dass Suchmaschinen Seiten crawlen, die du nicht in der Suche anzeigen lassen möchtest. Ergebnisse.

So scheitert die Lighthouse-Prüfung robots.txt

Lighthouse-Flags sind ungültig robots.txt-Dateien:

<ph type="x-smartling-placeholder">
</ph> Lighthouse-Prüfung zeigt ungültige robots.txt-Datei an

Maximieren Sie die Prüfung robots.txt ist ungültig in Ihrem Bericht um zu sehen, was mit deinem robots.txt nicht stimmt.

Häufige Fehler:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse prüft nicht, ob deine robots.txt-Datei an der richtigen Stelle platziert. Damit die Datei ordnungsgemäß funktioniert, muss sie sich im Stammverzeichnis des Ihre Domain oder Subdomain verwenden.

Probleme mit robots.txt beheben

Achte darauf, dass robots.txt keinen HTTP 5XX-Statuscode zurückgibt

Wenn Ihr Server einen Serverfehler zurückgibt, also einen HTTP-Statuscode im 500er-Format) für robots.txt, können Suchmaschinen nicht erkennen, welche Seiten gecrawlt wurde. Es könnte sein, dass sie das Crawling Ihrer gesamten Website beenden, wodurch neue dass bestimmte Inhalte nicht indexiert werden.

Um den HTTP-Statuscode zu sehen, öffne robots.txt in Chrome und überprüfen Sie die Anfrage in den Chrome-Entwicklertools.

robots.txt muss kleiner als 500 KiB sein

Suchmaschinen beenden die Verarbeitung von robots.txt möglicherweise in der Mitte, wenn die Datei die größer als 500 KiB sind. Dies kann die Suchmaschine verwirren, was zu falschen Crawling eurer Website.

Um robots.txt klein zu halten, konzentrieren Sie sich weniger auf einzeln ausgeschlossene Seiten und mehr auf breiter gefasste Muster. Wenn Sie beispielsweise das Crawlen von PDF-Dateien blockieren möchten, nicht jede einzelne Datei verbieten. Lassen Sie stattdessen alle URLs zu, die .pdf mit disallow: /*.pdf.

Alle Formatfehler beheben

  • Nur leere Zeilen, Kommentare und Anweisungen, die mit „name: value“ übereinstimmen Format sind in robots.txt zulässig.
  • Die Werte allow und disallow müssen entweder leer sein oder mit / oder * beginnen.
  • Verwenden Sie $ nicht in der Mitte eines Werts (z. B. allow: /file$html).

Geben Sie einen Wert für user-agent ein

User-Agent-Namen, um Suchmaschinen-Crawlern mitzuteilen, welche Anweisungen zu befolgen sind. Ich muss für jede Instanz von user-agent einen Wert angeben, damit Suchmaschinen erkennen, ob die zugehörigen Anweisungen befolgt werden sollen.

Um einen bestimmten Suchmaschinen-Crawler anzugeben, verwenden Sie einen User-Agent-Namen aus der zugehörigen der veröffentlichten Liste. (Zum Beispiel Liste der zum Crawling verwendeten User-Agents

Verwende *, um Übereinstimmungen mit allen anderen Crawlern zu finden, die nicht zugeordnet werden können.

Don'ts
user-agent:
disallow: /downloads/

Es ist kein User-Agent definiert.

Do
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Ein allgemeiner User-Agent und ein magicsearchbot-User-Agent sind definiert.

Vor dem user-agent dürfen keine allow- oder disallow-Anweisungen vorhanden sein

User-Agent-Namen definieren die Abschnitte der Datei robots.txt. Suchmaschine verwenden die Crawler diese Abschnitte, um zu bestimmen, welche Anweisungen befolgt werden sollen. Das Platzieren eines before dem ersten User-Agent-Namen bedeutet, dass keine Crawler .

Don'ts
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Die Anweisung disallow: /downloads wird von keinem Suchmaschinen-Crawler gelesen.

Do
# start of file
user-agent: *
disallow: /downloads/

Alle Suchmaschinen dürfen den Ordner /downloads nicht crawlen.

Suchmaschinen-Crawler folgen nur den Anweisungen in dem Abschnitt mit den meisten User-Agent-Namen. Wenn Sie beispielsweise Anweisungen für user-agent: * und user-agent: Googlebot-Image, der Googlebot-Images Folgen Sie den Anweisungen im Abschnitt user-agent: Googlebot-Image.

Geben Sie eine absolute URL für sitemap an

Sitemap-Dateien sind eine tolle Möglichkeit, Suchmaschinen über die Seiten auf Ihrer Website zu informieren. Eine Sitemap-Datei enthält in der Regel eine Liste die URLs auf Ihrer Website, zusammen mit Informationen darüber, wann sie zuletzt geändert.

Wenn du eine Sitemap-Datei in robots.txt einreichst, achte darauf, Verwenden Sie eine absolute URL.

Don'ts
sitemap: /sitemap-file.xml
Do
sitemap: https://example.com/sitemap-file.xml

Ressourcen