Plik robots.txt
informuje wyszukiwarki, które strony w Twojej witrynie mogą
indeksowania. Nieprawidłowa konfiguracja robots.txt
może powodować 2 typy problemów:
- Może uniemożliwić wyszukiwarkom indeksowanie stron publicznych, powodując treści, które rzadziej pojawiają się w wynikach wyszukiwania.
- Może spowodować, że wyszukiwarki będą indeksować strony, których nie chcesz pokazywać w wynikach wyszukiwania wyników.
Dlaczego nie udało się przeprowadzić kontroli w Lighthouse robots.txt
Nieprawidłowe flagi Lighthouse
Pliki (robots.txt
):
Rozwiń w raporcie kontrolę robots.txt
jest nieprawidłowy
aby dowiedzieć się, co jest nie tak z urządzeniem robots.txt
.
Typowe błędy:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse nie sprawdza, czy plik robots.txt
jest
w prawidłowym miejscu. Aby plik działał prawidłowo, musi znajdować się w katalogu głównym
swojej domeny lub subdomeny.
Rozwiązywanie problemów z usługą robots.txt
Sprawdź, czy robots.txt
nie zwraca kodu stanu HTTP 5XX
Jeśli serwer zwraca błąd serwera (kod stanu HTTP)
w przypadku robots.txt
, wyszukiwarki nie będą wiedzieć, które strony powinny zostać
zindeksowane. Mogą one przestać indeksować całą witrynę, co uniemożliwi
przed indeksowaniem.
Aby sprawdzić kod stanu HTTP, otwórz robots.txt
w Chrome i
sprawdź żądanie w Narzędziach deweloperskich w Chrome.
robots.txt
nie może przekraczać 500 KiB
Wyszukiwarki mogą przestać przetwarzać plik robots.txt
w połowie, jeśli plik jest
ponad 500 KiB. Może to dezorientować wyszukiwarkę i prowadzić do nieprawidłowych informacji
indeksowania witryny.
Aby robots.txt
był mały, skup się między innymi na poszczególnych wykluczonych stronach
na bardziej ogólne wzorce. Jeśli na przykład musisz zablokować indeksowanie plików PDF,
nie zabraniaj poszczególnych plików. Zamiast tego zablokuj dostęp do wszystkich adresów URL zawierających
.pdf
za pomocą funkcji disallow: /*.pdf
.
Naprawianie błędów formatu
- Tylko puste wiersze, komentarze i dyrektywy pasujące do ciągu „name: value” są
dozwolone w
robots.txt
. - Upewnij się, że wartości
allow
idisallow
są puste lub zaczynają się od/
albo*
. - Nie używaj
$
w środku wartości (np.allow: /file$html
).
Podaj wartość dla pola user-agent
Nazwy klientów użytkownika informujące roboty wyszukiwarek o tym, jakie dyrektywy mają stosować. Ty
musi podawać wartość każdego wystąpienia user-agent
, aby wyszukiwarki wiedziały
czy należy zastosować powiązany zestaw dyrektyw.
Aby wskazać konkretnego robota, użyj nazwy klienta użytkownika opublikowanej listy. (Na przykład oto Lista klientów użytkownika używanych przez Google do indeksowania).
Użyj operatora *
, aby dopasować wszystkie roboty, które nie są do niego dopasowane.
user-agent: disallow: /downloads/
Nie zdefiniowano klienta użytkownika.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Zdefiniowano ogólnego klienta użytkownika i klienta użytkownika magicsearchbot
.
Upewnij się, że przed user-agent
nie ma dyrektyw allow
ani disallow
Nazwy klientów użytkownika definiują sekcje pliku robots.txt
. Wyszukiwarka
na podstawie tych sekcji roboty określają, jakie dyrektywy mają obowiązywać. Umieszczenie znaku
przed pierwszą nazwą klienta oznacza, że żaden robot nie będzie
.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Żaden robot wyszukiwarki nie odczyta dyrektywy disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Wszystkie wyszukiwarki nie mogą indeksować folderu /downloads
.
Roboty wyszukiwarki przestrzegają tylko dyrektyw z sekcji z największą liczbą
i określona nazwa klienta. Na przykład jeśli mamy dyrektywy dla
user-agent: *
i user-agent: Googlebot-Image
, Googlebot będzie wyświetlać tylko obrazy
postępuj zgodnie z instrukcjami z sekcji user-agent: Googlebot-Image
.
Podaj bezwzględny URL dla: sitemap
Pliki mapy witryny są to znakomity sposób na informowanie wyszukiwarek o stronach w Twojej witrynie. Plik mapy witryny zwykle zawiera listę adresy URL w witrynie oraz informacje o tym, kiedy były ostatnio została zmieniona.
Jeśli zdecydujesz się przesłać plik mapy witryny w regionie robots.txt
, pamiętaj, by:
użyj bezwzględnego adresu URL.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml