Il file robots.txt
indica ai motori di ricerca quali pagine del tuo sito possono
eseguire la scansione. Una configurazione di robots.txt
non valida può causare due tipi di problemi:
- Può impedire ai motori di ricerca di eseguire la scansione delle pagine pubbliche, causando vengano visualizzati con minore frequenza nei risultati di ricerca.
- Può causare la scansione da parte dei motori di ricerca di pagine che potresti non voler mostrare nella ricerca. che consentono di analizzare i dati e visualizzare i risultati.
Perché il controllo robots.txt
di Lighthouse non va a buon fine
Flag Lighthouse non validi
robots.txt
file:
Espandi il controllo robots.txt
non è valido nel report
per scoprire cosa c'è che non va nel tuo robots.txt
.
Gli errori più comuni includono:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse non controlla che il file robots.txt
sia
nella posizione corretta. Per funzionare correttamente, il file deve essere nella directory radice di
il tuo dominio o sottodominio.
Come risolvere i problemi relativi a robots.txt
Assicurati che robots.txt
non restituisca un codice di stato HTTP 5XX
Se il server restituisce un errore del server (un codice di stato HTTP)
nel 500) per robots.txt
, i motori di ricerca non sanno quali pagine
sottoposti a scansione. Potrebbe interrompere la scansione dell'intero sito, impedendo a nuovi
l'indicizzazione dei contenuti.
Per controllare il codice di stato HTTP, apri robots.txt
in Chrome e
controlla la richiesta in Chrome DevTools.
Mantieni robots.txt
inferiore a 500 KiB
I motori di ricerca potrebbero interrompere l'elaborazione di robots.txt
a metà strada se il file viene
superiore a 500 KiB. Questo può confondere il motore di ricerca, generando errori
scansione del sito.
Per ridurre le dimensioni di robots.txt
, concentrati meno sulle pagine escluse singolarmente e di più
su pattern più ampi. Ad esempio, se devi bloccare la scansione dei file PDF,
non consentire ogni singolo file. Non consentire invece tutti gli URL contenenti
.pdf
tramite disallow: /*.pdf
.
Correggi eventuali errori di formato
- Solo righe vuote, commenti e istruzioni corrispondenti al "name: value" sono
consentito in
robots.txt
. - Assicurati che i valori
allow
edisallow
siano vuoti o inizino con/
o*
. - Non utilizzare
$
all'interno di un valore (ad esempio,allow: /file$html
).
Assicurati che esista un valore per user-agent
Nomi degli user agent per indicare ai crawler dei motori di ricerca le istruzioni da seguire. Tu
deve fornire un valore per ogni istanza di user-agent
in modo che i motori di ricerca sappiano
se seguire o meno
l'insieme di direttive associato.
Per specificare il crawler di un determinato motore di ricerca, utilizza il nome di uno user agent presente pubblicato. Ad esempio, ecco Elenco di user agent di Google utilizzati per la scansione.
Utilizza *
per trovare una corrispondenza con tutti i crawler che altrimenti non hanno una corrispondenza.
user-agent: disallow: /downloads/
Nessuno user agent definito.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Sono definiti uno user agent generico e uno user agent magicsearchbot
.
Assicurati che non siano presenti istruzioni allow
o disallow
prima del giorno user-agent
I nomi degli user agent definiscono le sezioni del file robots.txt
. Motore di ricerca
usano queste sezioni per stabilire quali istruzioni seguire. L'inserimento di un
prima del primo nome dello user agent significa che nessun crawler seguirà
li annotino.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Nessun crawler del motore di ricerca leggerà l'istruzione disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
A tutti i motori di ricerca non è consentito eseguire la scansione della cartella /downloads
.
I crawler dei motori di ricerca seguono solo le istruzioni nella sezione con il
un nome specifico
dello user agent. Ad esempio, se hai istruzioni per
user-agent: *
e user-agent: Googlebot-Image
, Googlebot Immagini
segui le istruzioni della sezione user-agent: Googlebot-Image
.
Fornisci un URL assoluto per sitemap
I file Sitemap sono una ottimo per far conoscere ai motori di ricerca le pagine del tuo sito web. Un file Sitemap di solito include un elenco di gli URL sul tuo sito web, insieme a informazioni sulla loro ultima è cambiato.
Se scegli di inviare un file Sitemap in robots.txt
, assicurati di:
utilizzare un URL assoluto.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml