Le fichier robots.txt n'est pas valide

Le fichier robots.txt indique aux moteurs de recherche les pages de votre site qu'ils peuvent explorer. Une configuration robots.txt non valide peut entraîner deux types de problèmes:

  • Il empêche les moteurs de recherche d'explorer les pages publiques, entraînant ainsi d'apparaître moins souvent dans les résultats de recherche.
  • Il peut amener les moteurs de recherche à explorer des pages que vous ne souhaitez pas voir s'afficher dans les résultats de recherche résultats.

Échec de l'audit robots.txt de Lighthouse

Indicateurs Lighthouse non valides Fichiers robots.txt:

<ph type="x-smartling-placeholder">
</ph> L&#39;audit Lighthouse indique un fichier robots.txt non valide

Développez l'audit robots.txt n'est pas valide dans votre rapport. pour savoir quel est le problème avec votre robots.txt.

Voici quelques erreurs courantes:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse ne vérifie pas que votre fichier robots.txt est au bon endroit. Pour fonctionner correctement, le fichier doit se trouver à la racine de votre domaine ou sous-domaine.

Résoudre les problèmes liés à robots.txt

Assurez-vous que robots.txt ne renvoie pas de code d'état HTTP 5XX

Si le serveur renvoie une erreur de serveur (un code d'état HTTP entre 500 et robots.txt, les moteurs de recherche ne sauront pas quelles pages devraient être explorées. Ils peuvent cesser d'explorer l'intégralité de votre site, ce qui empêche l'indexation du contenu.

Pour vérifier le code d'état HTTP, ouvrez robots.txt dans Chrome et vérifiez la demande dans les outils pour les développeurs Chrome.

Conserver robots.txt en dessous de 500 Kio

Les moteurs de recherche peuvent cesser de traiter robots.txt en cours de route si le fichier est supérieure à 500 Kio. Cela peut perturber le moteur de recherche et générer des erreurs de votre site.

Pour limiter la taille de robots.txt, concentrez-vous moins sur les pages exclues individuellement et sur d'autres aspects sur des modèles plus larges. Par exemple, si vous devez bloquer l'exploration des fichiers PDF, n'interdisez pas chaque fichier individuel. Interdisez plutôt toutes les URL contenant .pdf à l'aide de disallow: /*.pdf.

Corrigez les erreurs de format

  • Uniquement les lignes, commentaires et directives vides correspondant à la valeur "name: value" sont autorisé dans le pays suivant : robots.txt.
  • Assurez-vous que les valeurs allow et disallow sont vides, ou commencent par / ou *.
  • N'utilisez pas $ au milieu d'une valeur (par exemple, allow: /file$html).

Assurez-vous d'avoir une valeur pour user-agent

Noms de user-agent pour indiquer aux robots d'exploration des moteurs de recherche les directives à suivre. Toi doit fournir une valeur pour chaque instance de user-agent afin que les moteurs de recherche sachent de suivre ou non l'ensemble d'instructions associé.

Pour spécifier un robot d'exploration de moteur de recherche spécifique, utilisez un nom de user-agent figurant dans son de la liste publiée. Par exemple, voici liste Google des user-agents utilisés pour l'exploration)

Utilisez * pour établir une correspondance avec tous les robots d'exploration sans correspondance.

À éviter
user-agent:
disallow: /downloads/

Aucun user-agent n'est défini.

À faire
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Un user-agent général et un user-agent magicsearchbot sont définis.

Assurez-vous qu'il n'y a pas d'instructions allow ou disallow avant user-agent

Les noms de user-agent définissent les sections de votre fichier robots.txt. Moteur de recherche robots d'exploration utilisent ces sections pour déterminer les instructions à suivre. Placer un avant le premier nom du user-agent, cela signifie qu'aucun robot d'exploration ne suivra

À éviter
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Aucun robot d'exploration de moteur de recherche ne lit l'instruction disallow: /downloads.

À faire
# start of file
user-agent: *
disallow: /downloads/

Tous les moteurs de recherche ne sont pas autorisés à explorer le dossier /downloads.

Les robots d'exploration des moteurs de recherche suivent uniquement les directives de la section avec le plus le nom spécifique du user-agent. Par exemple, si vous avez des directives pour user-agent: * et user-agent: Googlebot-Image, Googlebot Images ne suivez les instructions de la section user-agent: Googlebot-Image.

Indiquez une URL absolue pour sitemap

Les fichiers sitemap sont très efficace pour informer les moteurs de recherche de l'existence de pages de votre site Web. Un fichier sitemap comprend généralement une liste de URL de votre site Web, ainsi que la date de leur dernière visite modifié.

Si vous choisissez d'envoyer un fichier sitemap dans robots.txt, assurez-vous de utilisez une URL absolue.

À éviter
sitemap: /sitemap-file.xml
À faire
sitemap: https://example.com/sitemap-file.xml

Ressources