robots.txt ファイル: サイト内のどのページを検索エンジンに許可するかを検索エンジンに伝える
クロールできます。robots.txt 構成が無効な場合、次の 2 種類の問題が発生する可能性があります。
- 公開ページを検索エンジンがクロールできないようにして、 コンテンツの表示頻度が下がります
- 検索結果に表示させたくないページが検索エンジンがクロールする原因となる可能性がある 表示されます。
Lighthouse robots.txt 監査で不合格となった結果
Lighthouse フラグが無効
robots.txt ファイル:
レポートで [robots.txt は無効です] 監査を展開します。
robots.txt の問題を確認してください。
一般的なエラーには次のようなものがあります。
No user-agent specifiedPattern should either be empty, start with "/" or "*"Unknown directiveInvalid sitemap URL$ should only be used at the end of the pattern
Lighthouse では、robots.txt ファイルのステータスが
確認します。正しく機能させるには、ファイルを
ドメインまたはサブドメインです。
robots.txt の問題を解決する方法
robots.txt が HTTP 5XX ステータス コードを返さないことを確認してください
サーバーからサーバーエラー(HTTP ステータス コード)が返された場合
500)の場合、robots.txt検索エンジンはどのページを
表示されます。その場合、サイト全体のクロールが停止され、新たな検出が
インデックス登録されないようにできます。
HTTP ステータス コードを確認するには、Chrome で robots.txt を開き、
Chrome DevTools でリクエストを確認します。
robots.txt を 500 KiB 未満にします
ファイルが以下の場合、検索エンジンは robots.txt の処理を途中で停止することがあります。
500 KiB を超えるアプリケーションに適しています。その結果、検索エンジンが混乱して、
確認できます。
robots.txt のサイズを小さくするには、個別に除外されているページなどの要素を減らします
パターンに焦点を合わせますたとえば、PDF ファイルのクロールをブロックする必要がある場合は、
許可しないように設定できます。代わりに、次を含む URL はすべて許可されません。
.pdf(disallow: /*.pdf を使用)。
形式エラーを修正してください
- 「name: value」に一致する空の行、コメント、ディレクティブのみ
robots.txtで許可。 allowとdisallowの値は空にするか、/または*で始まっていることを確認してください。- 値の途中で
$を使用しないでください(allow: /file$htmlなど)。
user-agent の値があることを確認してください
検索エンジンのクローラーに、従うディレクティブを伝えるユーザー エージェント名。マイページ
検索エンジンが認識できるように、user-agent のインスタンスごとに値を指定する必要があります。
関連するディレクティブのセットに従うかどうかを指定できます。
特定の検索エンジン クローラーを指定するには、 公開済みリストです。(たとえば、 クロールに使用される Google のユーザー エージェントのリストをご覧ください)。
一致しないクローラをすべて一致させる場合は、* を使用します。
user-agent: disallow: /downloads/
ユーザー エージェントは定義されていません。
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
一般的なユーザー エージェントと magicsearchbot ユーザー エージェントが定義されています。
user-agent の前に allow ディレクティブまたは disallow ディレクティブがないことを確認してください
ユーザー エージェント名は、robots.txt ファイルのセクションを定義します。検索エンジン
クローラーはこれらのセクションを使用して、従うディレクティブを決定します。スペースを
ディレクティブを最初の user-agent 名の前に指定すると、その後にクローラは実行されません。
できます。
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
検索エンジン クローラは disallow: /downloads ディレクティブを読み取ることはありません。
# start of file user-agent: * disallow: /downloads/
すべての検索エンジンが /downloads フォルダのクロールを禁止しています。
検索エンジンのクローラーは、最も頻度の高いセクションのディレクティブのみに従います。
ユーザー エージェント名を指定します。たとえば、環境変数に
user-agent: * と user-agent: Googlebot-Image を使用しており、画像用 Googlebot は
user-agent: Googlebot-Image セクションのディレクティブに従います。
sitemap に絶対 URL を指定してください
サイトマップ ファイルは、 検索エンジンにウェブサイトのページを知らせる優れた方法です。通常、サイトマップ ファイルには、サイトマップ、 ウェブサイトの URL、およびその最後にアクセスした日時に関する情報 変更されました。
robots.txt でサイトマップ ファイルを送信する場合は、
絶対 URL を使用する。
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml