Эта страница переведена с помощью Cloud Translation API.

robots.txt недействителен.

Файл robots.txt сообщает поисковым системам, какие страницы вашего сайта они могут сканировать. Неверная конфигурация файла robots.txt может вызвать два типа проблем:

Это может помешать поисковым системам сканировать общедоступные страницы, в результате чего ваш контент будет реже появляться в результатах поиска.
Это может привести к тому, что поисковые системы будут сканировать страницы, которые вы не хотите показывать в результатах поиска.

Как не удается выполнить аудит файла `robots.txt` Lighthouse

Lighthouse помечает недействительные файлы robots.txt :

Аудит Lighthouse показывает недействительный файл robots.txt

Примечание. Большинство проверок Lighthouse применимы только к той странице, на которой вы сейчас находитесь. Однако, поскольку robots.txt определен на уровне имени хоста, этот аудит применяется ко всему вашему домену (или поддомену).

Разверните в своем отчете проверку «недопустимый robots.txt , чтобы узнать, что не так с вашим robots.txt .

К частым ошибкам относятся:

No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern

Lighthouse не проверяет правильность расположения вашего файла robots.txt . Для корректной работы файл должен находиться в корне вашего домена или поддомена.

Как исправить проблемы с `robots.txt`

Убедитесь, что `robots.txt` не возвращает код состояния HTTP 5XX.

Если ваш сервер возвращает ошибку сервера ( код статуса HTTP 500) для robots.txt , поисковые системы не будут знать, какие страницы следует сканировать. Они могут перестать сканировать весь ваш сайт, что помешает индексированию нового контента.

Чтобы проверить код состояния HTTP, откройте robots.txt в Chrome и проверьте запрос в Chrome DevTools .

Размер `robots.txt` должен быть меньше 500 КиБ.

Поисковые системы могут прекратить обработку robots.txt на полпути, если размер файла превышает 500 КиБ. Это может запутать поисковую систему и привести к неправильному сканированию вашего сайта.

Чтобы robots.txt был небольшим, уделяйте меньше внимания отдельным исключенным страницам и больше — более широким шаблонам. Например, если вам нужно заблокировать сканирование PDF-файлов, не запрещайте каждый отдельный файл. Вместо этого запретите все URL-адреса, содержащие .pdf используя disallow: /*.pdf .

Исправьте любые ошибки формата

В robots.txt разрешены только пустые строки, комментарии и директивы, соответствующие формату «имя: значение».
Убедитесь, что allow и disallow пусты или начинаются с / или * .
Не используйте $ в середине значения (например, allow: /file$html ).

Убедитесь, что для `user-agent` указано значение

Имена пользовательских агентов, которые сообщают сканерам поисковых систем, каким директивам следует следовать. Вы должны указать значение для каждого экземпляра user-agent , чтобы поисковые системы знали, следует ли следовать соответствующему набору директив.

Чтобы указать конкретный сканер поисковой системы, используйте имя пользовательского агента из его опубликованного списка. (Например, вот список пользовательских агентов Google, используемых для сканирования .)

Используйте * , чтобы сопоставить все поисковые роботы, которым не удалось найти совпадения.

Не

user-agent:
disallow: /downloads/

Пользовательский агент не определен.

Делать

user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Определены общий пользовательский агент и пользовательский агент magicsearchbot .

Убедитесь, что перед `user-agent` нет директив `allow` или `disallow`

Имена пользовательских агентов определяют разделы вашего файла robots.txt . Поисковые роботы используют эти разделы, чтобы определить, каким директивам следует следовать. Размещение директивы перед первым именем пользовательского агента означает, что никакие сканеры не будут следовать за ней.

Не

# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Ни один сканер поисковой системы не прочитает директиву disallow: /downloads .

Делать

# start of file
user-agent: *
disallow: /downloads/

Всем поисковым системам запрещено сканировать папку /downloads .

Сканеры поисковых систем следуют директивам только в разделе с наиболее конкретным именем пользовательского агента. Например, если у вас есть директивы для user-agent: * и user-agent: Googlebot-Image , изображения Googlebot будут следовать только директивам из раздела user-agent: Googlebot-Image .

Укажите абсолютный URL-адрес для `sitemap`

Файлы Sitemap — отличный способ сообщить поисковым системам о страницах вашего сайта. Файл карты сайта обычно включает в себя список URL-адресов вашего веб-сайта, а также информацию о том, когда они в последний раз менялись.

Если вы решите отправить файл карты сайта в robots.txt , обязательно используйте абсолютный URL-адрес .

Не

sitemap: /sitemap-file.xml

Делать

sitemap: https://example.com/sitemap-file.xml

robots.txt недействителен. Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Как не удается выполнить аудит файла robots.txt Lighthouse

Как исправить проблемы с robots.txt

Убедитесь, что robots.txt не возвращает код состояния HTTP 5XX.

Размер robots.txt должен быть меньше 500 КиБ.

Исправьте любые ошибки формата

Убедитесь, что для user-agent указано значение

Убедитесь, что перед user-agent нет директив allow или disallow

Укажите абсолютный URL-адрес для sitemap

Ресурсы

robots.txt недействителен.

Как не удается выполнить аудит файла `robots.txt` Lighthouse

Как исправить проблемы с `robots.txt`

Убедитесь, что `robots.txt` не возвращает код состояния HTTP 5XX.

Размер `robots.txt` должен быть меньше 500 КиБ.

Убедитесь, что для `user-agent` указано значение

Убедитесь, что перед `user-agent` нет директив `allow` или `disallow`

Укажите абсолютный URL-адрес для `sitemap`