Файл robots.txt
сообщает поисковым системам, какие страницы вашего сайта они могут сканировать. Неверная конфигурация файла robots.txt
может вызвать два типа проблем:
- Это может помешать поисковым системам сканировать общедоступные страницы, в результате чего ваш контент будет реже появляться в результатах поиска.
- Это может привести к тому, что поисковые системы будут сканировать страницы, которые вы не хотите показывать в результатах поиска.
Как не удается выполнить аудит файла robots.txt
Lighthouse
Lighthouse помечает недействительные файлы robots.txt
:
Разверните в своем отчете проверку «недопустимый robots.txt
, чтобы узнать, что не так с вашим robots.txt
.
К частым ошибкам относятся:
-
No user-agent specified
-
Pattern should either be empty, start with "/" or "*"
-
Unknown directive
-
Invalid sitemap URL
-
$ should only be used at the end of the pattern
Lighthouse не проверяет правильность расположения вашего файла robots.txt
. Для корректной работы файл должен находиться в корне вашего домена или поддомена.
Как исправить проблемы с robots.txt
Убедитесь, что robots.txt
не возвращает код состояния HTTP 5XX.
Если ваш сервер возвращает ошибку сервера ( код статуса HTTP 500) для robots.txt
, поисковые системы не будут знать, какие страницы следует сканировать. Они могут перестать сканировать весь ваш сайт, что помешает индексации нового контента.
Чтобы проверить код состояния HTTP, откройте robots.txt
в Chrome и проверьте запрос в Chrome DevTools .
Размер robots.txt
должен быть меньше 500 КиБ.
Поисковые системы могут прекратить обработку robots.txt
на полпути, если размер файла превышает 500 КиБ. Это может запутать поисковую систему и привести к неправильному сканированию вашего сайта.
Чтобы robots.txt
был небольшим, уделяйте меньше внимания отдельным исключенным страницам и больше — более широким шаблонам. Например, если вам нужно заблокировать сканирование PDF-файлов, не запрещайте каждый отдельный файл. Вместо этого запретите все URL-адреса, содержащие .pdf
используя disallow: /*.pdf
.
Исправьте любые ошибки формата
- В
robots.txt
разрешены только пустые строки, комментарии и директивы, соответствующие формату «имя: значение». - Убедитесь, что
allow
иdisallow
либо пусты, либо начинаются с/
или*
. - Не используйте
$
в середине значения (например,allow: /file$html
).
Убедитесь, что для user-agent
указано значение
Имена пользовательских агентов, которые сообщают сканерам поисковых систем, каким директивам следует следовать. Вы должны указать значение для каждого экземпляра user-agent
, чтобы поисковые системы знали, следует ли следовать соответствующему набору директив.
Чтобы указать конкретный сканер поисковой системы, используйте имя пользовательского агента из его опубликованного списка. (Например, вот список пользовательских агентов Google, используемых для сканирования .)
Используйте *
, чтобы сопоставить все поисковые роботы, которым не удалось найти совпадения.
user-agent: disallow: /downloads/
Пользовательский агент не определен.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Определены общий пользовательский агент и пользовательский агент magicsearchbot
.
Убедитесь, что перед user-agent
нет директив allow
или disallow
Имена пользовательских агентов определяют разделы вашего файла robots.txt
. Поисковые роботы используют эти разделы, чтобы определить, каким директивам следует следовать. Размещение директивы перед первым именем пользовательского агента означает, что сканеры не будут следовать за ней.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Ни один сканер поисковой системы не прочитает директиву disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Всем поисковым системам запрещено сканировать папку /downloads
.
Сканеры поисковых систем следуют директивам только в разделе с наиболее конкретным именем пользовательского агента. Например, если у вас есть директивы для user-agent: *
и user-agent: Googlebot-Image
, изображения Googlebot будут следовать только директивам из раздела user-agent: Googlebot-Image
.
Укажите абсолютный URL-адрес для sitemap
Файлы карты сайта — отличный способ сообщить поисковым системам о страницах вашего сайта. Файл карты сайта обычно включает в себя список URL-адресов вашего веб-сайта, а также информацию о том, когда они в последний раз менялись.
Если вы решите отправить файл карты сайта в robots.txt
, обязательно используйте абсолютный URL-адрес .
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml