robots.txt tidak valid

File robots.txt memberi tahu mesin telusur halaman situs mana yang dapat melakukan crawling. Konfigurasi robots.txt yang tidak valid dapat menyebabkan dua jenis masalah:

  • Hal ini dapat mencegah mesin telusur meng-crawl halaman publik, sehingga menyebabkan konten yang akan lebih jarang muncul di hasil penelusuran.
  • Dapat menyebabkan mesin telusur meng-crawl halaman yang mungkin tidak ingin Anda tampilkan di penelusuran hasil pengujian tersebut.

Kegagalan audit robots.txt Lighthouse

Tanda Lighthouse tidak valid robots.txt file:

Audit Lighthouse menunjukkan robots.txt yang tidak valid

Luaskan audit robots.txt tidak valid dalam laporan Anda untuk mengetahui apa yang salah dengan robots.txt Anda.

Error umum mencakup:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse tidak memeriksa apakah file robots.txt Anda berada di lokasi yang benar. Agar berfungsi dengan benar, file harus berada di {i>root<i} domain atau subdomain Anda.

Cara memperbaiki masalah terkait robots.txt

Pastikan robots.txt tidak menampilkan kode status HTTP 5XX

Jika server Anda menampilkan error server (kode status HTTP di tahun 500-an) untuk robots.txt, mesin telusur tidak akan mengetahui halaman mana yang seharusnya di-crawl. Situs tersebut mungkin berhenti meng-crawl seluruh situs Anda, sehingga akan mencegah konten agar tidak diindeks.

Untuk memeriksa kode status HTTP, buka robots.txt di Chrome dan periksa permintaan di Chrome DevTools.

Pertahankan robots.txt agar lebih kecil dari 500 KiB

Mesin telusur mungkin berhenti memproses robots.txt di tengah-tengah jika file yang lebih besar dari 500 KiB. Ini dapat membingungkan mesin telusur, sehingga mengarah ke kesalahan crawling terhadap situs Anda.

Agar robots.txt tetap kecil, jangan terlalu berfokus pada halaman yang dikecualikan satu per satu dan lainnya pada pola yang lebih luas. Misalnya, jika Anda perlu memblokir crawling file PDF, jangan melarang setiap file. Sebagai gantinya, larang semua URL yang berisi .pdf dengan menggunakan disallow: /*.pdf.

Memperbaiki error format

  • Hanya baris, komentar, dan perintah kosong yang cocok dengan "name: value" formatnya adalah diizinkan di robots.txt.
  • Pastikan nilai allow dan disallow kosong atau diawali dengan / atau *.
  • Jangan gunakan $ di tengah nilai (misalnya, allow: /file$html).

Pastikan ada nilai untuk user-agent

Nama agen pengguna untuk memberi tahu crawler mesin telusur perintah mana yang harus diikuti. Anda harus memberikan nilai untuk setiap instance user-agent agar mesin telusur mengetahui apakah akan mengikuti serangkaian direktif terkait.

Untuk menentukan crawler mesin telusur tertentu, gunakan nama agen pengguna dari daftar yang dipublikasikan. (Misalnya, inilah Daftar agen pengguna Google yang digunakan untuk crawling.)

Gunakan * untuk mencocokkan semua crawler yang tidak cocok.

Larangan
user-agent:
disallow: /downloads/

Tidak ada agen pengguna yang ditentukan.

Anjuran
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Agen pengguna umum dan agen pengguna magicsearchbot ditentukan.

Pastikan tidak ada perintah allow atau disallow sebelum user-agent

Nama agen pengguna menentukan bagian dari file robots.txt Anda. Mesin telusur crawler menggunakan bagian tersebut untuk menentukan perintah yang harus diikuti. Menempatkan perintah sebelum nama agen pengguna pertama berarti tidak ada crawler yang akan mengikuti anotasi.

Larangan
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Crawler mesin telusur tidak akan membaca perintah disallow: /downloads.

Anjuran
# start of file
user-agent: *
disallow: /downloads/

Semua mesin telusur tidak boleh meng-crawl folder /downloads.

Crawler mesin telusur hanya mengikuti perintah di bagian dengan perintah nama agen pengguna tertentu. Misalnya, jika Anda memiliki perintah untuk user-agent: * dan user-agent: Googlebot-Image, Googlebot Image hanya akan ikuti perintah di bagian user-agent: Googlebot-Image.

Berikan URL absolut untuk sitemap

File peta situs adalah cara yang bagus untuk memberi tahu mesin telusur tentang halaman di situs Anda. File {i>sitemap<i} umumnya menyertakan daftar URL di situs Anda, beserta informasi tentang kapan URL tersebut terakhir ubah.

Jika Anda memilih mengirimkan file peta situs dalam bahasa robots.txt, pastikan untuk gunakan URL absolut.

Larangan
sitemap: /sitemap-file.xml
Anjuran
sitemap: https://example.com/sitemap-file.xml

Resource