Tệp robots.txt
cho công cụ tìm kiếm biết họ có thể truy cập những trang nào trên trang web của bạn
thu thập thông tin. Cấu hình robots.txt
không hợp lệ có thể gây ra 2 loại sự cố:
- Tệp này có thể ngăn công cụ tìm kiếm thu thập dữ liệu các trang công khai, khiến cho hiển thị ít hơn trong kết quả tìm kiếm.
- Lỗi này có thể khiến công cụ tìm kiếm thu thập dữ liệu những trang mà bạn có thể không muốn xuất hiện trong kết quả tìm kiếm kết quả.
Cách hoạt động kiểm tra robots.txt
của Lighthouse không thành công
Cờ Lighthouse không hợp lệ
robots.txt
tệp:
Mở rộng kết quả kiểm tra robots.txt
không hợp lệ trong báo cáo
để tìm hiểu xem robots.txt
của bạn đang gặp sự cố gì.
Sau đây là các lỗi thường gặp:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse không kiểm tra để đảm bảo rằng tệp robots.txt
của bạn
ở đúng vị trí. Để hoạt động chính xác, tệp phải nằm trong gốc của
miền hoặc miền con của bạn.
Cách khắc phục vấn đề với robots.txt
Đảm bảo robots.txt
không trả về mã trạng thái HTTP 5XX
Nếu máy chủ của bạn trả về lỗi máy chủ (mã trạng thái HTTP
trong những năm 500) cho robots.txt
, công cụ tìm kiếm sẽ không biết trang nào nên được
được thu thập thông tin. Chúng có thể ngừng thu thập dữ liệu toàn bộ trang web của bạn, điều này sẽ ngăn chặn việc thu thập dữ liệu mới
nội dung được lập chỉ mục.
Để kiểm tra mã trạng thái HTTP, hãy mở robots.txt
trong Chrome và
kiểm tra yêu cầu trong Công cụ của Chrome cho nhà phát triển.
Giữ cho robots.txt
nhỏ hơn 500 KiB
Công cụ tìm kiếm có thể ngừng xử lý robots.txt
giữa chừng nếu tệp đó
lớn hơn 500 KiB. Điều này có thể làm công cụ tìm kiếm nhầm lẫn, dẫn đến thông tin không chính xác
hoạt động thu thập dữ liệu trang web của bạn.
Để giảm kích thước robots.txt
, hãy giảm bớt việc tập trung vào các trang bị loại trừ riêng lẻ và nhiều tính năng khác
dựa trên các mẫu rộng hơn. Ví dụ: nếu bạn cần chặn quá trình thu thập dữ liệu tệp PDF,
không cho phép từng tệp riêng lẻ. Thay vào đó, hãy không cho phép tất cả URL có chứa
.pdf
bằng cách sử dụng disallow: /*.pdf
.
Khắc phục mọi lỗi định dạng
- Chỉ các dòng, nhận xét và lệnh trống khớp với "name: value" là
được phép hiển thị ở
robots.txt
. - Đảm bảo các giá trị
allow
vàdisallow
đang trống hoặc bắt đầu bằng/
hay*
. - Đừng sử dụng
$
ở giữa giá trị (ví dụ:allow: /file$html
).
Đảm bảo có giá trị cho user-agent
Tên tác nhân người dùng để cho trình thu thập dữ liệu của công cụ tìm kiếm biết nên tuân theo lệnh nào. Bạn
phải cung cấp giá trị cho mỗi bản sao của user-agent
để công cụ tìm kiếm biết
có tuân theo tập hợp lệnh liên quan hay không.
Để chỉ định một trình thu thập dữ liệu của công cụ tìm kiếm cụ thể, hãy sử dụng tên tác nhân người dùng từ danh sách đã xuất bản. (Ví dụ: dưới đây là Danh sách các tác nhân người dùng của Google được sử dụng để thu thập dữ liệu.)
Sử dụng *
để khớp với tất cả các trình thu thập dữ liệu không khớp.
user-agent: disallow: /downloads/
Không có tác nhân người dùng nào được xác định.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Tác nhân người dùng chung và tác nhân người dùng magicsearchbot
được xác định.
Đảm bảo không có lệnh allow
hoặc disallow
trước user-agent
Tên tác nhân người dùng xác định các phần trong tệp robots.txt
của bạn. Công cụ tìm kiếm
trình thu thập dữ liệu sẽ sử dụng các phần đó để xác định xem cần tuân theo lệnh nào. Đặt
trước tên tác nhân người dùng đầu tiên, tức là sẽ không có trình thu thập dữ liệu nào tuân theo
nó.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Không có trình thu thập dữ liệu của công cụ tìm kiếm nào sẽ đọc lệnh disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Tất cả công cụ tìm kiếm đều không được phép thu thập dữ liệu thư mục /downloads
.
Trình thu thập dữ liệu của công cụ tìm kiếm chỉ tuân theo các lệnh trong phần có
tên tác nhân người dùng cụ thể. Ví dụ: nếu bạn có lệnh cho
user-agent: *
và user-agent: Googlebot-Image
, Googlebot Images sẽ chỉ
làm theo các lệnh trong phần user-agent: Googlebot-Image
.
Hãy cung cấp một URL tuyệt đối cho sitemap
Tệp Sơ đồ trang web là là cách hiệu quả để cho công cụ tìm kiếm biết về các trang trên trang web của bạn. Tệp sơ đồ trang web thường bao gồm danh sách các URL trên trang web của bạn, cùng với thông tin về thời điểm truy cập gần đây nhất đã thay đổi.
Nếu bạn chọn gửi tệp sơ đồ trang web trong robots.txt
, hãy nhớ
hãy sử dụng URL tuyệt đối.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml