robots.txt no es válido

El archivo robots.txt les indica a los motores de búsqueda cuáles de las páginas de tu sitio pueden gatear. Una configuración de robots.txt no válida puede causar dos tipos de problemas:

  • Puede evitar que los motores de búsqueda rastreen páginas públicas, lo que provoca el contenido aparezca con menos frecuencia en los resultados de la búsqueda.
  • Puede hacer que los motores de búsqueda rastreen páginas que quizás no quieras que aparezcan en la búsqueda resultados.

Cómo falla la auditoría robots.txt de Lighthouse

Marcas de Lighthouse no válidas Archivos robots.txt:

Auditoría de Lighthouse que muestra un archivo robots.txt no válido

Expande la auditoría robots.txt no es válida en tu informe. para saber cuál es el problema con tu robots.txt.

Entre los errores más comunes, se incluyen los siguientes:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse no verifica si tu archivo robots.txt está en la ubicación correcta. Para funcionar correctamente, el archivo debe estar en la raíz de tu dominio o subdominio.

Cómo solucionar problemas con robots.txt

Asegúrate de que robots.txt no muestre un código de estado HTTP 5XX

Si el servidor muestra un error de servidor (un código de estado HTTP en los 500) para robots.txt, los motores de búsqueda no sabrán qué páginas deben rastreados. Es posible que dejen de rastrear todo el sitio, lo que impediría que se agreguen que el contenido no se indexe.

Para verificar el código de estado HTTP, abre robots.txt en Chrome y revisa la solicitud en las Herramientas para desarrolladores de Chrome.

Mantén el robots.txt con un tamaño inferior a 500 KiB

Es posible que los motores de búsqueda dejen de procesar robots.txt a mitad de camino si el archivo se superior a 500 KiB. Esto puede confundir al motor de búsqueda y generar errores el rastreo de tu sitio.

Para que robots.txt sea pequeño, enfócate menos en las páginas excluidas de forma individual y mucho más en patrones más amplios. Por ejemplo, si necesitas bloquear el rastreo de archivos PDF, no inhabilites cada archivo individual. En su lugar, inhabilite todas las URL que contengan .pdf mediante disallow: /*.pdf

Corrige los errores de formato

  • Solo líneas vacías, comentarios y directivas que coinciden con "name: value" formato están permitidos en robots.txt.
  • Asegúrate de que los valores allow y disallow estén vacíos o comiencen con / o *.
  • No uses $ en medio de un valor (por ejemplo, allow: /file$html).

Asegúrate de que haya un valor para user-agent

Los nombres de usuarios-agentes para indicar a los rastreadores de motores de búsqueda qué directivas deben seguir Tú Debe proporcionar un valor para cada instancia de user-agent para que los motores de búsqueda sepan si se debe seguir el conjunto de directivas asociado.

Para especificar un rastreador de motor de búsqueda en particular, usa el nombre de usuario-agente de su lista publicada. (Por ejemplo, aquí está la lista de usuarios-agentes de Google que se utilizan para el rastreo).

Usa * para hacer coincidir todos los rastreadores que no tendrán coincidencias.

Qué no debes hacer
user-agent:
disallow: /downloads/

No se definió ningún usuario-agente.

Qué debes hacer
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Se definen un usuario-agente general y un usuario-agente magicsearchbot.

Asegúrate de que no haya directivas allow o disallow antes del user-agent

Los nombres de usuario-agente definen las secciones de tu archivo robots.txt. Motor de búsqueda los rastreadores usan esas secciones para determinar qué directivas seguir. Colocar un directiva antes del nombre del primer usuario-agente significa que ningún rastreador seguirá que la modifica.

Qué no debes hacer
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Ningún rastreador de motores de búsqueda leerá la directiva disallow: /downloads.

Qué debes hacer
# start of file
user-agent: *
disallow: /downloads/

Ningún motor de búsqueda puede rastrear la carpeta /downloads.

Los rastreadores de motores de búsqueda solo siguen las directivas de la sección con la nombre de usuario-agente específico. Por ejemplo, si tienes directivas para user-agent: * y user-agent: Googlebot-Image, Googlebot para imágenes solo usará sigue las directivas de la sección user-agent: Googlebot-Image.

Proporciona una URL absoluta para sitemap

Los archivos de mapa del sitio es una excelente manera de informar a los motores de búsqueda sobre las páginas de tu sitio web. Un archivo de mapa del sitio generalmente incluye una lista de las URLs de tu sitio web, junto con información sobre cuándo fueron las últimas cambió.

Si eliges enviar un archivo de mapa del sitio en robots.txt, asegúrate de enviar usan una URL absoluta.

Qué no debes hacer
sitemap: /sitemap-file.xml
Qué debes hacer
sitemap: https://example.com/sitemap-file.xml

Recursos