Plik robots.txt jest nieprawidłowy

Plik robots.txt informuje wyszukiwarki, które strony w Twojej witrynie mogą indeksowania. Nieprawidłowa konfiguracja robots.txt może powodować 2 typy problemów:

  • Może uniemożliwić wyszukiwarkom indeksowanie stron publicznych, powodując treści, które rzadziej pojawiają się w wynikach wyszukiwania.
  • Może spowodować, że wyszukiwarki będą indeksować strony, których nie chcesz pokazywać w wynikach wyszukiwania wyników.

Dlaczego nie udało się przeprowadzić kontroli w Lighthouse robots.txt

Nieprawidłowe flagi Lighthouse Pliki (robots.txt):

Audyt Lighthouse pokazujący nieprawidłowy plik robots.txt

Rozwiń w raporcie kontrolę robots.txt jest nieprawidłowy aby dowiedzieć się, co jest nie tak z urządzeniem robots.txt.

Typowe błędy:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse nie sprawdza, czy plik robots.txt jest w prawidłowym miejscu. Aby plik działał prawidłowo, musi znajdować się w katalogu głównym swojej domeny lub subdomeny.

Rozwiązywanie problemów z usługą robots.txt

Sprawdź, czy robots.txt nie zwraca kodu stanu HTTP 5XX

Jeśli serwer zwraca błąd serwera (kod stanu HTTP) w przypadku robots.txt, wyszukiwarki nie będą wiedzieć, które strony powinny zostać zindeksowane. Mogą one przestać indeksować całą witrynę, co uniemożliwi przed indeksowaniem.

Aby sprawdzić kod stanu HTTP, otwórz robots.txt w Chrome i sprawdź żądanie w Narzędziach deweloperskich w Chrome.

robots.txt nie może przekraczać 500 KiB

Wyszukiwarki mogą przestać przetwarzać plik robots.txt w połowie, jeśli plik jest ponad 500 KiB. Może to dezorientować wyszukiwarkę i prowadzić do nieprawidłowych informacji indeksowania witryny.

Aby robots.txt był mały, skup się między innymi na poszczególnych wykluczonych stronach na bardziej ogólne wzorce. Jeśli na przykład musisz zablokować indeksowanie plików PDF, nie zabraniaj poszczególnych plików. Zamiast tego zablokuj dostęp do wszystkich adresów URL zawierających .pdf za pomocą funkcji disallow: /*.pdf.

Naprawianie błędów formatu

  • Tylko puste wiersze, komentarze i dyrektywy pasujące do ciągu „name: value” są dozwolone w robots.txt.
  • Upewnij się, że wartości allow i disallow są puste lub zaczynają się od / albo *.
  • Nie używaj $ w środku wartości (np. allow: /file$html).

Podaj wartość dla pola user-agent

Nazwy klientów użytkownika informujące roboty wyszukiwarek o tym, jakie dyrektywy mają stosować. Ty musi podawać wartość każdego wystąpienia user-agent, aby wyszukiwarki wiedziały czy należy zastosować powiązany zestaw dyrektyw.

Aby wskazać konkretnego robota, użyj nazwy klienta użytkownika opublikowanej listy. (Na przykład oto Lista klientów użytkownika używanych przez Google do indeksowania).

Użyj operatora *, aby dopasować wszystkie roboty, które nie są do niego dopasowane.

Nie
user-agent:
disallow: /downloads/

Nie zdefiniowano klienta użytkownika.

Tak
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Zdefiniowano ogólnego klienta użytkownika i klienta użytkownika magicsearchbot.

Upewnij się, że przed user-agent nie ma dyrektyw allow ani disallow

Nazwy klientów użytkownika definiują sekcje pliku robots.txt. Wyszukiwarka na podstawie tych sekcji roboty określają, jakie dyrektywy mają obowiązywać. Umieszczenie znaku przed pierwszą nazwą klienta oznacza, że żaden robot nie będzie .

Nie
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Żaden robot wyszukiwarki nie odczyta dyrektywy disallow: /downloads.

Tak
# start of file
user-agent: *
disallow: /downloads/

Wszystkie wyszukiwarki nie mogą indeksować folderu /downloads.

Roboty wyszukiwarki przestrzegają tylko dyrektyw z sekcji z największą liczbą i określona nazwa klienta. Na przykład jeśli mamy dyrektywy dla user-agent: * i user-agent: Googlebot-Image, Googlebot będzie wyświetlać tylko obrazy postępuj zgodnie z instrukcjami z sekcji user-agent: Googlebot-Image.

Podaj bezwzględny URL dla: sitemap

Pliki mapy witryny są to znakomity sposób na informowanie wyszukiwarek o stronach w Twojej witrynie. Plik mapy witryny zwykle zawiera listę adresy URL w witrynie oraz informacje o tym, kiedy były ostatnio została zmieniona.

Jeśli zdecydujesz się przesłać plik mapy witryny w regionie robots.txt, pamiętaj, by: użyj bezwzględnego adresu URL.

Nie
sitemap: /sitemap-file.xml
Tak
sitemap: https://example.com/sitemap-file.xml

Zasoby