File robots.txt
memberi tahu mesin telusur halaman situs mana yang dapat
melakukan crawling. Konfigurasi robots.txt
yang tidak valid dapat menyebabkan dua jenis masalah:
- Hal ini dapat mencegah mesin telusur meng-crawl halaman publik, sehingga menyebabkan konten yang akan lebih jarang muncul di hasil penelusuran.
- Dapat menyebabkan mesin telusur meng-crawl halaman yang mungkin tidak ingin Anda tampilkan di penelusuran hasil pengujian tersebut.
Kegagalan audit robots.txt
Lighthouse
Tanda Lighthouse tidak valid
robots.txt
file:
Luaskan audit robots.txt
tidak valid dalam laporan Anda
untuk mengetahui apa yang salah dengan robots.txt
Anda.
Error umum mencakup:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse tidak memeriksa apakah file robots.txt
Anda
berada di lokasi yang benar. Agar berfungsi dengan benar, file harus berada di {i>root<i}
domain atau subdomain Anda.
Cara memperbaiki masalah terkait robots.txt
Pastikan robots.txt
tidak menampilkan kode status HTTP 5XX
Jika server Anda menampilkan error server (kode status HTTP
di tahun 500-an) untuk robots.txt
, mesin telusur tidak akan
mengetahui halaman mana yang seharusnya
di-crawl. Situs tersebut mungkin berhenti meng-crawl seluruh situs Anda, sehingga akan mencegah
konten agar tidak diindeks.
Untuk memeriksa kode status HTTP, buka robots.txt
di Chrome dan
periksa permintaan di Chrome DevTools.
Pertahankan robots.txt
agar lebih kecil dari 500 KiB
Mesin telusur mungkin berhenti memproses robots.txt
di tengah-tengah jika file
yang lebih besar dari 500 KiB. Ini dapat membingungkan mesin telusur, sehingga mengarah ke kesalahan
crawling terhadap situs Anda.
Agar robots.txt
tetap kecil, jangan terlalu berfokus pada halaman yang dikecualikan satu per satu dan lainnya
pada pola yang lebih luas. Misalnya, jika Anda perlu memblokir crawling file PDF,
jangan melarang
setiap file. Sebagai gantinya, larang semua URL yang berisi
.pdf
dengan menggunakan disallow: /*.pdf
.
Memperbaiki error format
- Hanya baris, komentar, dan perintah kosong yang cocok dengan "name: value" formatnya adalah
diizinkan di
robots.txt
. - Pastikan nilai
allow
dandisallow
kosong atau diawali dengan/
atau*
. - Jangan gunakan
$
di tengah nilai (misalnya,allow: /file$html
).
Pastikan ada nilai untuk user-agent
Nama agen pengguna untuk memberi tahu crawler mesin telusur perintah mana yang harus diikuti. Anda
harus memberikan nilai untuk setiap instance user-agent
agar mesin telusur mengetahui
apakah akan mengikuti
serangkaian direktif terkait.
Untuk menentukan crawler mesin telusur tertentu, gunakan nama agen pengguna dari daftar yang dipublikasikan. (Misalnya, inilah Daftar agen pengguna Google yang digunakan untuk crawling.)
Gunakan *
untuk mencocokkan semua crawler yang tidak cocok.
user-agent: disallow: /downloads/
Tidak ada agen pengguna yang ditentukan.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Agen pengguna umum dan agen pengguna magicsearchbot
ditentukan.
Pastikan tidak ada perintah allow
atau disallow
sebelum user-agent
Nama agen pengguna menentukan bagian dari file robots.txt
Anda. Mesin telusur
crawler menggunakan bagian tersebut untuk menentukan perintah yang harus diikuti. Menempatkan
perintah sebelum nama agen pengguna pertama berarti tidak ada crawler yang akan mengikuti
anotasi.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Crawler mesin telusur tidak akan membaca perintah disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Semua mesin telusur tidak boleh meng-crawl folder /downloads
.
Crawler mesin telusur hanya mengikuti perintah di bagian dengan perintah
nama agen pengguna tertentu. Misalnya, jika Anda memiliki
perintah untuk
user-agent: *
dan user-agent: Googlebot-Image
, Googlebot Image hanya akan
ikuti perintah di bagian user-agent: Googlebot-Image
.
Berikan URL absolut untuk sitemap
File peta situs adalah cara yang bagus untuk memberi tahu mesin telusur tentang halaman di situs Anda. File {i>sitemap<i} umumnya menyertakan daftar URL di situs Anda, beserta informasi tentang kapan URL tersebut terakhir ubah.
Jika Anda memilih mengirimkan file peta situs dalam bahasa robots.txt
, pastikan untuk
gunakan URL absolut.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml