Halaman ini diterjemahkan oleh Cloud Translation API.

robots.txt tidak valid

File robots.txt memberi tahu mesin telusur halaman situs mana yang dapat melakukan crawling. Konfigurasi robots.txt yang tidak valid dapat menyebabkan dua jenis masalah:

Hal ini dapat mencegah mesin telusur meng-crawl halaman publik, sehingga menyebabkan konten yang akan lebih jarang muncul di hasil penelusuran.
Dapat menyebabkan mesin telusur meng-crawl halaman yang mungkin tidak ingin Anda tampilkan di penelusuran hasil pengujian tersebut.

Kegagalan audit `robots.txt` Lighthouse

Tanda Lighthouse tidak valid robots.txt file:

Audit Lighthouse menunjukkan robots.txt yang tidak valid

Catatan: Sebagian besar audit Lighthouse hanya berlaku untuk halaman yang sedang Anda buka. Namun, karena robots.txt ditentukan di tingkat nama host, audit ini berlaku untuk seluruh domain (atau subdomain).

Luaskan audit robots.txt tidak valid dalam laporan Anda untuk mengetahui apa yang salah dengan robots.txt Anda.

Error umum mencakup:

No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern

Lighthouse tidak memeriksa apakah file robots.txt Anda berada di lokasi yang benar. Agar berfungsi dengan benar, file harus berada di {i>root<i} domain atau subdomain Anda.

Cara memperbaiki masalah terkait `robots.txt`

Pastikan `robots.txt` tidak menampilkan kode status HTTP 5XX

Jika server Anda menampilkan error server (kode status HTTP di tahun 500-an) untuk robots.txt, mesin telusur tidak akan mengetahui halaman mana yang seharusnya di-crawl. Situs tersebut mungkin berhenti meng-crawl seluruh situs Anda, sehingga akan mencegah konten agar tidak diindeks.

Untuk memeriksa kode status HTTP, buka robots.txt di Chrome dan periksa permintaan di Chrome DevTools.

Pertahankan `robots.txt` agar lebih kecil dari 500 KiB

Mesin telusur mungkin berhenti memproses robots.txt di tengah-tengah jika file yang lebih besar dari 500 KiB. Ini dapat membingungkan mesin telusur, sehingga mengarah ke kesalahan crawling terhadap situs Anda.

Agar robots.txt tetap kecil, jangan terlalu berfokus pada halaman yang dikecualikan satu per satu dan lainnya pada pola yang lebih luas. Misalnya, jika Anda perlu memblokir crawling file PDF, jangan melarang setiap file. Sebagai gantinya, larang semua URL yang berisi .pdf dengan menggunakan disallow: /*.pdf.

Memperbaiki error format

Hanya baris, komentar, dan perintah kosong yang cocok dengan "name: value" formatnya adalah diizinkan di robots.txt.
Pastikan nilai allow dan disallow kosong atau diawali dengan / atau *.
Jangan gunakan $ di tengah nilai (misalnya, allow: /file$html).

Pastikan ada nilai untuk `user-agent`

Nama agen pengguna untuk memberi tahu crawler mesin telusur perintah mana yang harus diikuti. Anda harus memberikan nilai untuk setiap instance user-agent agar mesin telusur mengetahui apakah akan mengikuti serangkaian direktif terkait.

Untuk menentukan crawler mesin telusur tertentu, gunakan nama agen pengguna dari daftar yang dipublikasikan. (Misalnya, inilah Daftar agen pengguna Google yang digunakan untuk crawling.)

Gunakan * untuk mencocokkan semua crawler yang tidak cocok.

Larangan

user-agent:
disallow: /downloads/

Tidak ada agen pengguna yang ditentukan.

Anjuran

user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Agen pengguna umum dan agen pengguna magicsearchbot ditentukan.

Pastikan tidak ada perintah `allow` atau `disallow` sebelum `user-agent`

Nama agen pengguna menentukan bagian dari file robots.txt Anda. Mesin telusur crawler menggunakan bagian tersebut untuk menentukan perintah yang harus diikuti. Menempatkan perintah sebelum nama agen pengguna pertama berarti tidak ada crawler yang akan mengikuti anotasi.

Larangan

# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Crawler mesin telusur tidak akan membaca perintah disallow: /downloads.

Anjuran

# start of file
user-agent: *
disallow: /downloads/

Semua mesin telusur tidak boleh meng-crawl folder /downloads.

Crawler mesin telusur hanya mengikuti perintah di bagian dengan perintah nama agen pengguna tertentu. Misalnya, jika Anda memiliki perintah untuk user-agent: * dan user-agent: Googlebot-Image, Googlebot Image hanya akan ikuti perintah di bagian user-agent: Googlebot-Image.

Berikan URL absolut untuk `sitemap`

File peta situs adalah cara yang bagus untuk memberi tahu mesin telusur tentang halaman di situs Anda. File {i>sitemap<i} umumnya menyertakan daftar URL di situs Anda, beserta informasi tentang kapan URL tersebut terakhir ubah.

Jika Anda memilih mengirimkan file peta situs dalam bahasa robots.txt, pastikan untuk gunakan URL absolut.

Larangan

sitemap: /sitemap-file.xml

Anjuran

sitemap: https://example.com/sitemap-file.xml

robots.txt tidak valid Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Kegagalan audit robots.txt Lighthouse

Cara memperbaiki masalah terkait robots.txt

Pastikan robots.txt tidak menampilkan kode status HTTP 5XX

Pertahankan robots.txt agar lebih kecil dari 500 KiB

Memperbaiki error format

Pastikan ada nilai untuk user-agent

Pastikan tidak ada perintah allow atau disallow sebelum user-agent

Berikan URL absolut untuk sitemap

Resource

robots.txt tidak valid

Kegagalan audit `robots.txt` Lighthouse

Cara memperbaiki masalah terkait `robots.txt`

Pastikan `robots.txt` tidak menampilkan kode status HTTP 5XX

Pertahankan `robots.txt` agar lebih kecil dari 500 KiB

Pastikan ada nilai untuk `user-agent`

Pastikan tidak ada perintah `allow` atau `disallow` sebelum `user-agent`

Berikan URL absolut untuk `sitemap`