robots.txt недействителен.

Файл robots.txt сообщает поисковым системам, какие страницы вашего сайта они могут сканировать. Неверная конфигурация robots.txt может вызвать два типа проблем:

  • Это может помешать поисковым системам сканировать общедоступные страницы, в результате чего ваш контент будет реже появляться в результатах поиска.
  • Это может привести к тому, что поисковые системы будут сканировать страницы, которые вы не хотите показывать в результатах поиска.

Как не удается выполнить аудит файла robots.txt Lighthouse

Lighthouse помечает недействительные файлы robots.txt :

Аудит Lighthouse показывает недействительный файл robots.txt

Разверните в своем отчете проверку «недопустимый robots.txt , чтобы узнать, что не так с вашим robots.txt .

К частым ошибкам относятся:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse не проверяет правильность расположения вашего файла robots.txt . Для корректной работы файл должен находиться в корне вашего домена или поддомена.

Как исправить проблемы с robots.txt

Убедитесь, что robots.txt не возвращает код состояния HTTP 5XX.

Если ваш сервер возвращает ошибку сервера ( код статуса HTTP 500) для robots.txt , поисковые системы не будут знать, какие страницы следует сканировать. Они могут перестать сканировать весь ваш сайт, что помешает индексации нового контента.

Чтобы проверить код состояния HTTP, откройте robots.txt в Chrome и проверьте запрос в Chrome DevTools .

Размер robots.txt должен быть меньше 500 КиБ.

Поисковые системы могут прекратить обработку robots.txt на полпути, если размер файла превышает 500 КиБ. Это может запутать поисковую систему и привести к неправильному сканированию вашего сайта.

Чтобы robots.txt был небольшим, уделяйте меньше внимания отдельным исключенным страницам и больше — более широким шаблонам. Например, если вам нужно заблокировать сканирование PDF-файлов, не запрещайте каждый отдельный файл. Вместо этого запретите все URL-адреса, содержащие .pdf , используя disallow: /*.pdf .

Исправьте любые ошибки формата

  • В robots.txt разрешены только пустые строки, комментарии и директивы, соответствующие формату «имя: значение».
  • Убедитесь, что allow и disallow либо пусты, либо начинаются с / или * .
  • Не используйте $ в середине значения (например, allow: /file$html ).

Убедитесь, что для user-agent указано значение

Имена пользовательских агентов, которые сообщают сканерам поисковых систем, каким директивам следует следовать. Вы должны указать значение для каждого экземпляра user-agent , чтобы поисковые системы знали, следует ли следовать соответствующему набору директив.

Чтобы указать конкретный сканер поисковой системы, используйте имя пользовательского агента из его опубликованного списка. (Например, вот список пользовательских агентов Google, используемых для сканирования .)

Используйте * , чтобы сопоставить все поисковые роботы, которым не удалось найти совпадения.

Не
user-agent:
disallow: /downloads/

Пользовательский агент не определен.

Делать
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Определены общий пользовательский агент и пользовательский агент magicsearchbot .

Убедитесь, что перед user-agent нет директив allow или disallow

Имена пользовательских агентов определяют разделы вашего файла robots.txt . Поисковые роботы используют эти разделы, чтобы определить, каким директивам следует следовать. Размещение директивы перед первым именем пользовательского агента означает, что сканеры не будут следовать за ней.

Не
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Ни один сканер поисковой системы не прочитает директиву disallow: /downloads .

Делать
# start of file
user-agent: *
disallow: /downloads/

Всем поисковым системам запрещено сканировать папку /downloads .

Сканеры поисковых систем следуют директивам только в разделе с наиболее конкретным именем пользовательского агента. Например, если у вас есть директивы для user-agent: * и user-agent: Googlebot-Image , изображения Googlebot будут следовать только директивам из раздела user-agent: Googlebot-Image .

Укажите абсолютный URL-адрес для sitemap

Файлы карты сайта — отличный способ сообщить поисковым системам о страницах вашего сайта. Файл карты сайта обычно включает в себя список URL-адресов вашего веб-сайта, а также информацию о том, когда они в последний раз менялись.

Если вы решите отправить файл карты сайта в robots.txt , обязательно используйте абсолютный URL-адрес .

Не
sitemap: /sitemap-file.xml
Делать
sitemap: https://example.com/sitemap-file.xml

Ресурсы