robots.txt không hợp lệ

Tệp robots.txt cho công cụ tìm kiếm biết họ có thể truy cập những trang nào trên trang web của bạn thu thập thông tin. Cấu hình robots.txt không hợp lệ có thể gây ra 2 loại sự cố:

  • Tệp này có thể ngăn công cụ tìm kiếm thu thập dữ liệu các trang công khai, khiến cho hiển thị ít hơn trong kết quả tìm kiếm.
  • Lỗi này có thể khiến công cụ tìm kiếm thu thập dữ liệu những trang mà bạn có thể không muốn xuất hiện trong kết quả tìm kiếm kết quả.

Cách hoạt động kiểm tra robots.txt của Lighthouse không thành công

Cờ Lighthouse không hợp lệ robots.txt tệp:

Kiểm tra Lighthouse cho thấy tệp robots.txt không hợp lệ

Mở rộng kết quả kiểm tra robots.txt không hợp lệ trong báo cáo để tìm hiểu xem robots.txt của bạn đang gặp sự cố gì.

Sau đây là các lỗi thường gặp:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse không kiểm tra để đảm bảo rằng tệp robots.txt của bạn ở đúng vị trí. Để hoạt động chính xác, tệp phải nằm trong gốc của miền hoặc miền con của bạn.

Cách khắc phục vấn đề với robots.txt

Đảm bảo robots.txt không trả về mã trạng thái HTTP 5XX

Nếu máy chủ của bạn trả về lỗi máy chủ (mã trạng thái HTTP trong những năm 500) cho robots.txt, công cụ tìm kiếm sẽ không biết trang nào nên được được thu thập thông tin. Chúng có thể ngừng thu thập dữ liệu toàn bộ trang web của bạn, điều này sẽ ngăn chặn việc thu thập dữ liệu mới nội dung được lập chỉ mục.

Để kiểm tra mã trạng thái HTTP, hãy mở robots.txt trong Chrome và kiểm tra yêu cầu trong Công cụ của Chrome cho nhà phát triển.

Giữ cho robots.txt nhỏ hơn 500 KiB

Công cụ tìm kiếm có thể ngừng xử lý robots.txt giữa chừng nếu tệp đó lớn hơn 500 KiB. Điều này có thể làm công cụ tìm kiếm nhầm lẫn, dẫn đến thông tin không chính xác hoạt động thu thập dữ liệu trang web của bạn.

Để giảm kích thước robots.txt, hãy giảm bớt việc tập trung vào các trang bị loại trừ riêng lẻ và nhiều tính năng khác dựa trên các mẫu rộng hơn. Ví dụ: nếu bạn cần chặn quá trình thu thập dữ liệu tệp PDF, không cho phép từng tệp riêng lẻ. Thay vào đó, hãy không cho phép tất cả URL có chứa .pdf bằng cách sử dụng disallow: /*.pdf.

Khắc phục mọi lỗi định dạng

  • Chỉ các dòng, nhận xét và lệnh trống khớp với "name: value" là được phép hiển thị ở robots.txt.
  • Đảm bảo các giá trị allowdisallow đang trống hoặc bắt đầu bằng / hay *.
  • Đừng sử dụng $ ở giữa giá trị (ví dụ: allow: /file$html).

Đảm bảo có giá trị cho user-agent

Tên tác nhân người dùng để cho trình thu thập dữ liệu của công cụ tìm kiếm biết nên tuân theo lệnh nào. Bạn phải cung cấp giá trị cho mỗi bản sao của user-agent để công cụ tìm kiếm biết có tuân theo tập hợp lệnh liên quan hay không.

Để chỉ định một trình thu thập dữ liệu của công cụ tìm kiếm cụ thể, hãy sử dụng tên tác nhân người dùng từ danh sách đã xuất bản. (Ví dụ: dưới đây là Danh sách các tác nhân người dùng của Google được sử dụng để thu thập dữ liệu.)

Sử dụng * để khớp với tất cả các trình thu thập dữ liệu không khớp.

Không nên
user-agent:
disallow: /downloads/

Không có tác nhân người dùng nào được xác định.

Nên
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Tác nhân người dùng chung và tác nhân người dùng magicsearchbot được xác định.

Đảm bảo không có lệnh allow hoặc disallow trước user-agent

Tên tác nhân người dùng xác định các phần trong tệp robots.txt của bạn. Công cụ tìm kiếm trình thu thập dữ liệu sẽ sử dụng các phần đó để xác định xem cần tuân theo lệnh nào. Đặt trước tên tác nhân người dùng đầu tiên, tức là sẽ không có trình thu thập dữ liệu nào tuân theo nó.

Không nên
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Không có trình thu thập dữ liệu của công cụ tìm kiếm nào sẽ đọc lệnh disallow: /downloads.

Nên
# start of file
user-agent: *
disallow: /downloads/

Tất cả công cụ tìm kiếm đều không được phép thu thập dữ liệu thư mục /downloads.

Trình thu thập dữ liệu của công cụ tìm kiếm chỉ tuân theo các lệnh trong phần có tên tác nhân người dùng cụ thể. Ví dụ: nếu bạn có lệnh cho user-agent: *user-agent: Googlebot-Image, Googlebot Images sẽ chỉ làm theo các lệnh trong phần user-agent: Googlebot-Image.

Hãy cung cấp một URL tuyệt đối cho sitemap

Tệp Sơ đồ trang web là là cách hiệu quả để cho công cụ tìm kiếm biết về các trang trên trang web của bạn. Tệp sơ đồ trang web thường bao gồm danh sách các URL trên trang web của bạn, cùng với thông tin về thời điểm truy cập gần đây nhất đã thay đổi.

Nếu bạn chọn gửi tệp sơ đồ trang web trong robots.txt, hãy nhớ hãy sử dụng URL tuyệt đối.

Không nên
sitemap: /sitemap-file.xml
Nên
sitemap: https://example.com/sitemap-file.xml

Tài nguyên