Các công cụ tìm kiếm chỉ có thể hiển thị các trang trong kết quả tìm kiếm nếu các trang đó không xuất hiện chặn việc lập chỉ mục một cách rõ ràng bởi các trình thu thập dữ liệu của công cụ tìm kiếm. Một số tiêu đề HTTP và meta Thẻ cho trình thu thập dữ liệu biết rằng không nên lập chỉ mục một trang.
Bạn chỉ nên chặn hoạt động lập chỉ mục đối với nội dung mà bạn không muốn xuất hiện trong kết quả tìm kiếm.
Cách quá trình kiểm tra hoạt động lập chỉ mục Lighthouse không thành công
Lighthouse gắn cờ trang mà công cụ tìm kiếm không thể lập chỉ mục:
Lighthouse chỉ kiểm tra tiêu đề hoặc phần tử chặn tất cả công cụ tìm kiếm
trình thu thập thông tin. Ví dụ: phần tử <meta>
dưới đây ngăn tất cả công cụ tìm kiếm
trình thu thập thông tin (còn được gọi là rô-bốt) truy cập trang của bạn:
<meta name="robots" content="noindex"/>
Tiêu đề phản hồi HTTP này cũng chặn tất cả trình thu thập dữ liệu:
X-Robots-Tag: noindex
Bạn cũng có thể dùng các phần tử <meta>
chặn các trình thu thập dữ liệu cụ thể, chẳng hạn như:
<meta name="Googlebot" content="noindex"/>
Lighthouse không vượt qua quá trình kiểm tra các lệnh dành riêng cho trình thu thập dữ liệu như thế này, nhưng chúng có thể vẫn làm cho trang của bạn khó khám phá hơn, vì vậy hãy thận trọng khi sử dụng chúng. Lighthouse sẽ phát ra nếu một lệnh dành riêng cho trình thu thập thông tin đang chặn một bot lập chỉ mục chung.
Cách đảm bảo công cụ tìm kiếm có thể thu thập dữ liệu trang của bạn
Trước tiên, hãy đảm bảo rằng bạn muốn các công cụ tìm kiếm lập chỉ mục trang. Một số trang, chẳng hạn như sơ đồ trang web hoặc nội dung hợp pháp, thường không nên được lập chỉ mục. (Lưu ý rằng việc chặn lập chỉ mục không ngăn người dùng truy cập một trang nếu họ biết URL của trang đó.)
Đối với những trang mà bạn muốn được lập chỉ mục, hãy xoá mọi tiêu đề HTTP hoặc phần tử <meta>
đang chặn trình thu thập dữ liệu của công cụ tìm kiếm. Tuỳ thuộc vào cách bạn thiết lập trang web,
bạn có thể cần phải thực hiện một số hoặc tất cả các bước dưới đây:
- Xoá tiêu đề phản hồi HTTP
X-Robots-Tag
nếu bạn thiết lập một HTTP tiêu đề phản hồi:
X-Robots-Tag: noindex
- Xoá thẻ meta sau nếu thẻ đó nằm trong phần đầu của trang:
<meta name="robots" content="noindex">
- Tránh dùng các thẻ meta chặn các trình thu thập dữ liệu cụ thể nếu những thẻ này xuất hiện trong đầu trang. Ví dụ:
<meta name="Googlebot" content="noindex">
Thêm quyền kiểm soát bổ sung (không bắt buộc)
Bạn có thể muốn kiểm soát nhiều hơn đối với cách công cụ tìm kiếm lập chỉ mục trang của bạn. Ví dụ: có thể bạn không muốn Google lập chỉ mục hình ảnh, nhưng bạn lại muốn phần còn lại của trang được lập chỉ mục.
Để biết thông tin về cách định cấu hình các phần tử <meta>
và HTTP
cho các công cụ tìm kiếm cụ thể, hãy xem những hướng dẫn sau: