robots.txt
檔案會告訴搜尋引擎網站上有哪些網頁可供搜尋引擎存取
。無效的 robots.txt
設定可能會造成兩種問題:
- 可以防止搜尋引擎檢索公開網頁,避免 ,降低內容在搜尋結果中的顯示頻率。
- 這會造成搜尋引擎檢索你不想顯示在搜尋結果中的網頁 也就是預測結果
Lighthouse robots.txt
稽核失敗的原因
Lighthouse 標記無效
robots.txt
檔案:
展開報表中的robots.txt
無效稽核結果
,瞭解「robots.txt
」是否有任何問題。
常見錯誤包括:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse 不會檢查你的 robots.txt
檔案
放在正確的位置如要正確運作,檔案必須位於
您的網域或子網域
如何修正「robots.txt
」相關問題
確認 robots.txt
不會傳回 HTTP 5XX 狀態碼
如果伺服器傳回伺服器錯誤 (HTTP 狀態碼)
500 秒內),robots.txt
,搜尋引擎並無法判斷哪些網頁應該
已檢索。他們可能會停止檢索整個網站,並預防新的
將內容編入索引
如要查看 HTTP 狀態碼,請在 Chrome 中開啟 robots.txt
,並
在 Chrome 開發人員工具中查看要求。
保持 robots.txt
小於 500 KiB
如果檔案符合以下條件,搜尋引擎可能會停止處理 robots.txt
:
大於 500 KiB否則可能會使搜尋引擎產生混淆,
檢索您的網站
為確保 robots.txt
精簡,請減少專心排除個別排除的網頁等
找出更廣泛的模式舉例來說,如要禁止 Google 檢索 PDF 檔案
不會禁止個別檔案請改為禁止含有
使用 disallow: /*.pdf
.pdf
。
修正所有格式錯誤
- 僅限與「name: value」相符的空白行、註解和指令格式為
允許在
robots.txt
刊登。 - 確認
allow
和disallow
值為空白,或是以/
或*
開頭。 - 請勿在值中間使用
$
(例如allow: /file$html
)。
請確認「user-agent
」已設定值
使用者代理程式名稱,用來指示搜尋引擎檢索器要追蹤哪些指令。個人中心
必須為每個 user-agent
例項提供一個值,讓搜尋引擎知道
是否遵行相關的指令集
如要指定特定的搜尋引擎檢索器,請使用其 發布清單(舉例來說, Google 檢索使用的使用者代理程式清單)。
使用 *
比對所有不相符的檢索器。
user-agent: disallow: /downloads/
未定義任何使用者代理程式。
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
已定義一般使用者代理程式和 magicsearchbot
使用者代理程式。
確認 user-agent
前沒有 allow
或 disallow
指令
使用者代理程式名稱會定義 robots.txt
檔案的各個區段。搜尋引擎
檢索器會運用這些部分判斷要追蹤哪些指令。在
指令,代表沒有任何檢索器遵循
基礎架構
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
所有搜尋引擎檢索器都不會讀取 disallow: /downloads
指令。
# start of file user-agent: * disallow: /downloads/
不允許所有搜尋引擎檢索 /downloads
資料夾。
搜尋引擎檢索器只會處理
特定的使用者代理程式名稱舉例來說,如果您已有
user-agent: *
和 user-agent: Googlebot-Image
,Googlebot 圖片則只會
請遵循 user-agent: Googlebot-Image
區段中的指令。
為 sitemap
提供絕對網址
Sitemap 檔案是 Sitemap 檔案通常包含 您網站上的網址,以及網址上次使用時間的相關資訊 已變更。
如果您選擇以「robots.txt
」提交 Sitemap 檔案,請務必確認
使用絕對網址。
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml