Trang bị chặn lập chỉ mục

Công cụ tìm kiếm chỉ có thể cho thấy trang trong kết quả tìm kiếm nếu các trang đó không bị trình thu thập dữ liệu của công cụ tìm kiếm chặn hoạt động lập chỉ mục một cách rõ ràng. Một số tiêu đề HTTP và thẻ meta cho các trình thu thập dữ liệu biết rằng không nên lập chỉ mục một trang.

Bạn chỉ nên chặn quá trình lập chỉ mục đối với nội dung mà bạn không muốn xuất hiện trong kết quả tìm kiếm.

Cách quy trình kiểm tra lập chỉ mục Lighthouse không thành công

Lighthouse gắn cờ những trang mà công cụ tìm kiếm không thể lập chỉ mục:

Kiểm tra bằng Lighthouse cho thấy các công cụ tìm kiếm không thể lập chỉ mục trang của bạn

Lighthouse chỉ kiểm tra các tiêu đề hoặc phần tử chặn tất cả trình thu thập dữ liệu của công cụ tìm kiếm. Ví dụ: phần tử <meta> dưới đây ngăn tất cả trình thu thập dữ liệu của công cụ tìm kiếm (còn gọi là rô-bốt) truy cập vào trang của bạn:

<meta name="robots" content="noindex"/>

Tiêu đề phản hồi HTTP này cũng chặn tất cả các trình thu thập dữ liệu:

X-Robots-Tag: noindex

Có thể bạn cũng có các phần tử <meta> chặn một số trình thu thập dữ liệu, chẳng hạn như:

<meta name="Googlebot" content="noindex"/>

Lighthouse không vượt qua được quy trình kiểm tra các lệnh dành riêng cho trình thu thập dữ liệu như thế này, nhưng vẫn có thể khiến trang của bạn khó bị phát hiện hơn. Vì vậy, hãy thận trọng khi sử dụng các lệnh này. Lighthouse sẽ phát ra cảnh báo nếu một lệnh dành riêng cho trình thu thập dữ liệu đang chặn một bot lập chỉ mục phổ biến.

Cách đảm bảo công cụ tìm kiếm có thể thu thập dữ liệu trang của bạn

Trước tiên, hãy đảm bảo rằng bạn muốn các công cụ tìm kiếm lập chỉ mục trang đó. Thường thì một số trang (như sơ đồ trang web hoặc nội dung pháp lý) sẽ không được lập chỉ mục. (Xin lưu ý rằng việc chặn lập chỉ mục sẽ không ngăn người dùng truy cập vào một trang nếu họ biết URL của trang đó.)

Đối với các trang bạn muốn lập chỉ mục, hãy xoá mọi tiêu đề HTTP hoặc phần tử <meta> đang chặn trình thu thập dữ liệu của công cụ tìm kiếm. Tuỳ thuộc vào cách thiết lập trang web, bạn có thể cần thực hiện một số hoặc tất cả các bước dưới đây:

  • Xoá tiêu đề phản hồi HTTP X-Robots-Tag nếu bạn thiết lập tiêu đề phản hồi HTTP:
X-Robots-Tag: noindex
  • Xoá thẻ meta sau nếu thẻ này xuất hiện trên phần đầu trang:
<meta name="robots" content="noindex">
  • Tránh dùng các thẻ meta chặn các trình thu thập dữ liệu cụ thể nếu các thẻ này xuất hiện ở đầu trang. Ví dụ:
<meta name="Googlebot" content="noindex">

Thêm chế độ kiểm soát bổ sung (không bắt buộc)

Bạn có thể muốn kiểm soát nhiều hơn đối với cách công cụ tìm kiếm lập chỉ mục trang của bạn. Ví dụ: có thể bạn không muốn Google lập chỉ mục hình ảnh, nhưng bạn lại muốn phần còn lại của trang được lập chỉ mục.

Để biết thông tin về cách định cấu hình phần tử <meta> và tiêu đề HTTP cho các công cụ tìm kiếm cụ thể, hãy xem những hướng dẫn sau:

Tài nguyên