El archivo robots.txt
les indica a los motores de búsqueda cuáles de las páginas de tu sitio pueden
gatear. Una configuración de robots.txt
no válida puede causar dos tipos de problemas:
- Puede evitar que los motores de búsqueda rastreen páginas públicas, lo que provoca el contenido aparezca con menos frecuencia en los resultados de la búsqueda.
- Puede hacer que los motores de búsqueda rastreen páginas que quizás no quieras que aparezcan en la búsqueda resultados.
Cómo falla la auditoría robots.txt
de Lighthouse
Marcas de Lighthouse no válidas
Archivos robots.txt
:
Expande la auditoría robots.txt
no es válida en tu informe.
para saber cuál es el problema con tu robots.txt
.
Entre los errores más comunes, se incluyen los siguientes:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse no verifica si tu archivo robots.txt
está
en la ubicación correcta. Para funcionar correctamente, el archivo debe estar en la raíz de
tu dominio o subdominio.
Cómo solucionar problemas con robots.txt
Asegúrate de que robots.txt
no muestre un código de estado HTTP 5XX
Si el servidor muestra un error de servidor (un código de estado HTTP
en los 500) para robots.txt
, los motores de búsqueda no sabrán qué páginas deben
rastreados. Es posible que dejen de rastrear todo el sitio, lo que impediría que se agreguen
que el contenido no se indexe.
Para verificar el código de estado HTTP, abre robots.txt
en Chrome y
revisa la solicitud en las Herramientas para desarrolladores de Chrome.
Mantén el robots.txt
con un tamaño inferior a 500 KiB
Es posible que los motores de búsqueda dejen de procesar robots.txt
a mitad de camino si el archivo se
superior a 500 KiB. Esto puede confundir al motor de búsqueda y generar errores
el rastreo de tu sitio.
Para que robots.txt
sea pequeño, enfócate menos en las páginas excluidas de forma individual y mucho más
en patrones más amplios. Por ejemplo, si necesitas bloquear el rastreo de archivos PDF,
no inhabilites cada archivo individual. En su lugar, inhabilite todas las URL que contengan
.pdf
mediante disallow: /*.pdf
Corrige los errores de formato
- Solo líneas vacías, comentarios y directivas que coinciden con "name: value" formato están
permitidos en
robots.txt
. - Asegúrate de que los valores
allow
ydisallow
estén vacíos o comiencen con/
o*
. - No uses
$
en medio de un valor (por ejemplo,allow: /file$html
).
Asegúrate de que haya un valor para user-agent
Los nombres de usuarios-agentes para indicar a los rastreadores de motores de búsqueda qué directivas deben seguir Tú
Debe proporcionar un valor para cada instancia de user-agent
para que los motores de búsqueda sepan
si se debe seguir el conjunto de directivas asociado.
Para especificar un rastreador de motor de búsqueda en particular, usa el nombre de usuario-agente de su lista publicada. (Por ejemplo, aquí está la lista de usuarios-agentes de Google que se utilizan para el rastreo).
Usa *
para hacer coincidir todos los rastreadores que no tendrán coincidencias.
user-agent: disallow: /downloads/
No se definió ningún usuario-agente.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Se definen un usuario-agente general y un usuario-agente magicsearchbot
.
Asegúrate de que no haya directivas allow
o disallow
antes del user-agent
Los nombres de usuario-agente definen las secciones de tu archivo robots.txt
. Motor de búsqueda
los rastreadores usan esas secciones para determinar qué directivas seguir. Colocar un
directiva antes del nombre del primer usuario-agente significa que ningún rastreador seguirá
que la modifica.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Ningún rastreador de motores de búsqueda leerá la directiva disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Ningún motor de búsqueda puede rastrear la carpeta /downloads
.
Los rastreadores de motores de búsqueda solo siguen las directivas de la sección con la
nombre de usuario-agente específico. Por ejemplo, si tienes directivas para
user-agent: *
y user-agent: Googlebot-Image
, Googlebot para imágenes solo usará
sigue las directivas de la sección user-agent: Googlebot-Image
.
Proporciona una URL absoluta para sitemap
Los archivos de mapa del sitio es una excelente manera de informar a los motores de búsqueda sobre las páginas de tu sitio web. Un archivo de mapa del sitio generalmente incluye una lista de las URLs de tu sitio web, junto con información sobre cuándo fueron las últimas cambió.
Si eliges enviar un archivo de mapa del sitio en robots.txt
, asegúrate de enviar
usan una URL absoluta.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml