Le fichier robots.txt
indique aux moteurs de recherche les pages de votre site qu'ils peuvent
explorer. Une configuration robots.txt
non valide peut entraîner deux types de problèmes:
- Il empêche les moteurs de recherche d'explorer les pages publiques, entraînant ainsi d'apparaître moins souvent dans les résultats de recherche.
- Il peut amener les moteurs de recherche à explorer des pages que vous ne souhaitez pas voir s'afficher dans les résultats de recherche résultats.
Échec de l'audit robots.txt
de Lighthouse
Indicateurs Lighthouse non valides
Fichiers robots.txt
:
Développez l'audit robots.txt
n'est pas valide dans votre rapport.
pour savoir quel est le problème avec votre robots.txt
.
Voici quelques erreurs courantes:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse ne vérifie pas que votre fichier robots.txt
est
au bon endroit. Pour fonctionner correctement, le fichier doit se trouver à la racine de
votre domaine ou sous-domaine.
Résoudre les problèmes liés à robots.txt
Assurez-vous que robots.txt
ne renvoie pas de code d'état HTTP 5XX
Si le serveur renvoie une erreur de serveur (un code d'état HTTP
entre 500 et robots.txt
, les moteurs de recherche ne sauront pas quelles pages devraient être
explorées. Ils peuvent cesser d'explorer l'intégralité de votre site, ce qui empêche
l'indexation du contenu.
Pour vérifier le code d'état HTTP, ouvrez robots.txt
dans Chrome et
vérifiez la demande dans les outils pour les développeurs Chrome.
Conserver robots.txt
en dessous de 500 Kio
Les moteurs de recherche peuvent cesser de traiter robots.txt
en cours de route si le fichier est
supérieure à 500 Kio. Cela peut perturber le moteur de recherche et générer des erreurs
de votre site.
Pour limiter la taille de robots.txt
, concentrez-vous moins sur les pages exclues individuellement et sur d'autres aspects
sur des modèles plus larges. Par exemple, si vous devez bloquer l'exploration des fichiers PDF,
n'interdisez pas chaque fichier individuel. Interdisez plutôt toutes les URL contenant
.pdf
à l'aide de disallow: /*.pdf
.
Corrigez les erreurs de format
- Uniquement les lignes, commentaires et directives vides correspondant à la valeur "name: value" sont
autorisé dans le pays suivant :
robots.txt
. - Assurez-vous que les valeurs
allow
etdisallow
sont vides, ou commencent par/
ou*
. - N'utilisez pas
$
au milieu d'une valeur (par exemple,allow: /file$html
).
Assurez-vous d'avoir une valeur pour user-agent
Noms de user-agent pour indiquer aux robots d'exploration des moteurs de recherche les directives à suivre. Toi
doit fournir une valeur pour chaque instance de user-agent
afin que les moteurs de recherche sachent
de suivre ou non l'ensemble d'instructions associé.
Pour spécifier un robot d'exploration de moteur de recherche spécifique, utilisez un nom de user-agent figurant dans son de la liste publiée. Par exemple, voici liste Google des user-agents utilisés pour l'exploration)
Utilisez *
pour établir une correspondance avec tous les robots d'exploration sans correspondance.
user-agent: disallow: /downloads/
Aucun user-agent n'est défini.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Un user-agent général et un user-agent magicsearchbot
sont définis.
Assurez-vous qu'il n'y a pas d'instructions allow
ou disallow
avant user-agent
Les noms de user-agent définissent les sections de votre fichier robots.txt
. Moteur de recherche
robots d'exploration utilisent ces sections pour déterminer les instructions à suivre. Placer un
avant le premier nom du user-agent, cela signifie qu'aucun robot d'exploration ne suivra
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Aucun robot d'exploration de moteur de recherche ne lit l'instruction disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Tous les moteurs de recherche ne sont pas autorisés à explorer le dossier /downloads
.
Les robots d'exploration des moteurs de recherche suivent uniquement les directives de la section avec le plus
le nom spécifique du user-agent. Par exemple, si vous avez des directives pour
user-agent: *
et user-agent: Googlebot-Image
, Googlebot Images ne
suivez les instructions de la section user-agent: Googlebot-Image
.
Indiquez une URL absolue pour sitemap
Les fichiers sitemap sont très efficace pour informer les moteurs de recherche de l'existence de pages de votre site Web. Un fichier sitemap comprend généralement une liste de URL de votre site Web, ainsi que la date de leur dernière visite modifié.
Si vous choisissez d'envoyer un fichier sitemap dans robots.txt
, assurez-vous de
utilisez une URL absolue.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml