robots.txt
ファイル: サイト内のどのページを検索エンジンに許可するかを検索エンジンに伝える
クロールできます。robots.txt
構成が無効な場合、次の 2 種類の問題が発生する可能性があります。
- 公開ページを検索エンジンがクロールできないようにして、 コンテンツの表示頻度が下がります
- 検索結果に表示させたくないページが検索エンジンがクロールする原因となる可能性がある 表示されます。
Lighthouse robots.txt
監査で不合格となった結果
Lighthouse フラグが無効
robots.txt
ファイル:
レポートで [robots.txt
は無効です] 監査を展開します。
robots.txt
の問題を確認してください。
一般的なエラーには次のようなものがあります。
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse では、robots.txt
ファイルのステータスが
確認します。正しく機能させるには、ファイルを
ドメインまたはサブドメインです。
robots.txt
の問題を解決する方法
robots.txt
が HTTP 5XX ステータス コードを返さないことを確認してください
サーバーからサーバーエラー(HTTP ステータス コード)が返された場合
500)の場合、robots.txt
検索エンジンはどのページを
表示されます。その場合、サイト全体のクロールが停止され、新たな検出が
インデックス登録されないようにできます。
HTTP ステータス コードを確認するには、Chrome で robots.txt
を開き、
Chrome DevTools でリクエストを確認します。
robots.txt
を 500 KiB 未満にします
ファイルが以下の場合、検索エンジンは robots.txt
の処理を途中で停止することがあります。
500 KiB を超えるアプリケーションに適しています。その結果、検索エンジンが混乱して、
確認できます。
robots.txt
のサイズを小さくするには、個別に除外されているページなどの要素を減らします
パターンに焦点を合わせますたとえば、PDF ファイルのクロールをブロックする必要がある場合は、
許可しないように設定できます。代わりに、次を含む URL はすべて許可されません。
.pdf
(disallow: /*.pdf
を使用)。
形式エラーを修正してください
- 「name: value」に一致する空の行、コメント、ディレクティブのみ
robots.txt
で許可。 allow
とdisallow
の値は空にするか、/
または*
で始まっていることを確認してください。- 値の途中で
$
を使用しないでください(allow: /file$html
など)。
user-agent
の値があることを確認してください
検索エンジンのクローラーに、従うディレクティブを伝えるユーザー エージェント名。マイページ
検索エンジンが認識できるように、user-agent
のインスタンスごとに値を指定する必要があります。
関連するディレクティブのセットに従うかどうかを指定できます。
特定の検索エンジン クローラーを指定するには、 公開済みリストです。(たとえば、 クロールに使用される Google のユーザー エージェントのリストをご覧ください)。
一致しないクローラをすべて一致させる場合は、*
を使用します。
user-agent: disallow: /downloads/
ユーザー エージェントは定義されていません。
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
一般的なユーザー エージェントと magicsearchbot
ユーザー エージェントが定義されています。
user-agent
の前に allow
ディレクティブまたは disallow
ディレクティブがないことを確認してください
ユーザー エージェント名は、robots.txt
ファイルのセクションを定義します。検索エンジン
クローラーはこれらのセクションを使用して、従うディレクティブを決定します。スペースを
ディレクティブを最初の user-agent 名の前に指定すると、その後にクローラは実行されません。
できます。
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
検索エンジン クローラは disallow: /downloads
ディレクティブを読み取ることはありません。
# start of file user-agent: * disallow: /downloads/
すべての検索エンジンが /downloads
フォルダのクロールを禁止しています。
検索エンジンのクローラーは、最も頻度の高いセクションのディレクティブのみに従います。
ユーザー エージェント名を指定します。たとえば、環境変数に
user-agent: *
と user-agent: Googlebot-Image
を使用しており、画像用 Googlebot は
user-agent: Googlebot-Image
セクションのディレクティブに従います。
sitemap
に絶対 URL を指定してください
サイトマップ ファイルは、 検索エンジンにウェブサイトのページを知らせる優れた方法です。通常、サイトマップ ファイルには、サイトマップ、 ウェブサイトの URL、およびその最後にアクセスした日時に関する情報 変更されました。
robots.txt
でサイトマップ ファイルを送信する場合は、
絶対 URL を使用する。
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml