File robots.txt non valido

Il file robots.txt indica ai motori di ricerca quali pagine del tuo sito possono eseguire la scansione. Una configurazione di robots.txt non valida può causare due tipi di problemi:

  • Può impedire ai motori di ricerca di eseguire la scansione delle pagine pubbliche, causando vengano visualizzati con minore frequenza nei risultati di ricerca.
  • Può causare la scansione da parte dei motori di ricerca di pagine che potresti non voler mostrare nella ricerca. che consentono di analizzare i dati e visualizzare i risultati.

Perché il controllo robots.txt di Lighthouse non va a buon fine

Flag Lighthouse non validi robots.txt file:

Controllo Lighthouse che mostra un file robots.txt non valido

Espandi il controllo robots.txt non è valido nel report per scoprire cosa c'è che non va nel tuo robots.txt.

Gli errori più comuni includono:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse non controlla che il file robots.txt sia nella posizione corretta. Per funzionare correttamente, il file deve essere nella directory radice di il tuo dominio o sottodominio.

Come risolvere i problemi relativi a robots.txt

Assicurati che robots.txt non restituisca un codice di stato HTTP 5XX

Se il server restituisce un errore del server (un codice di stato HTTP) nel 500) per robots.txt, i motori di ricerca non sanno quali pagine sottoposti a scansione. Potrebbe interrompere la scansione dell'intero sito, impedendo a nuovi l'indicizzazione dei contenuti.

Per controllare il codice di stato HTTP, apri robots.txt in Chrome e controlla la richiesta in Chrome DevTools.

Mantieni robots.txt inferiore a 500 KiB

I motori di ricerca potrebbero interrompere l'elaborazione di robots.txt a metà strada se il file viene superiore a 500 KiB. Questo può confondere il motore di ricerca, generando errori scansione del sito.

Per ridurre le dimensioni di robots.txt, concentrati meno sulle pagine escluse singolarmente e di più su pattern più ampi. Ad esempio, se devi bloccare la scansione dei file PDF, non consentire ogni singolo file. Non consentire invece tutti gli URL contenenti .pdf tramite disallow: /*.pdf.

Correggi eventuali errori di formato

  • Solo righe vuote, commenti e istruzioni corrispondenti al "name: value" sono consentito in robots.txt.
  • Assicurati che i valori allow e disallow siano vuoti o inizino con / o *.
  • Non utilizzare $ all'interno di un valore (ad esempio, allow: /file$html).

Assicurati che esista un valore per user-agent

Nomi degli user agent per indicare ai crawler dei motori di ricerca le istruzioni da seguire. Tu deve fornire un valore per ogni istanza di user-agent in modo che i motori di ricerca sappiano se seguire o meno l'insieme di direttive associato.

Per specificare il crawler di un determinato motore di ricerca, utilizza il nome di uno user agent presente pubblicato. Ad esempio, ecco Elenco di user agent di Google utilizzati per la scansione.

Utilizza * per trovare una corrispondenza con tutti i crawler che altrimenti non hanno una corrispondenza.

Cosa non fare
user-agent:
disallow: /downloads/

Nessuno user agent definito.

Cosa fare
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Sono definiti uno user agent generico e uno user agent magicsearchbot.

Assicurati che non siano presenti istruzioni allow o disallow prima del giorno user-agent

I nomi degli user agent definiscono le sezioni del file robots.txt. Motore di ricerca usano queste sezioni per stabilire quali istruzioni seguire. L'inserimento di un prima del primo nome dello user agent significa che nessun crawler seguirà li annotino.

Cosa non fare
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Nessun crawler del motore di ricerca leggerà l'istruzione disallow: /downloads.

Cosa fare
# start of file
user-agent: *
disallow: /downloads/

A tutti i motori di ricerca non è consentito eseguire la scansione della cartella /downloads.

I crawler dei motori di ricerca seguono solo le istruzioni nella sezione con il un nome specifico dello user agent. Ad esempio, se hai istruzioni per user-agent: * e user-agent: Googlebot-Image, Googlebot Immagini segui le istruzioni della sezione user-agent: Googlebot-Image.

Fornisci un URL assoluto per sitemap

I file Sitemap sono una ottimo per far conoscere ai motori di ricerca le pagine del tuo sito web. Un file Sitemap di solito include un elenco di gli URL sul tuo sito web, insieme a informazioni sulla loro ultima è cambiato.

Se scegli di inviare un file Sitemap in robots.txt, assicurati di: utilizzare un URL assoluto.

Cosa non fare
sitemap: /sitemap-file.xml
Cosa fare
sitemap: https://example.com/sitemap-file.xml

Risorse