robots.txt が無効です

robots.txt ファイル: サイト内のどのページを検索エンジンに許可するかを検索エンジンに伝える クロールできます。robots.txt 構成が無効な場合、次の 2 種類の問題が発生する可能性があります。

  • 公開ページを検索エンジンがクロールできないようにして、 コンテンツの表示頻度が下がります
  • 検索結果に表示させたくないページが検索エンジンがクロールする原因となる可能性がある 表示されます。

Lighthouse robots.txt 監査で不合格となった結果

Lighthouse フラグが無効 robots.txt ファイル:

<ph type="x-smartling-placeholder">
</ph> Lighthouse の監査で無効な robots.txt が表示される

レポートで [robots.txt は無効です] 監査を展開します。 robots.txt の問題を確認してください。

一般的なエラーには次のようなものがあります。

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse では、robots.txt ファイルのステータスが 確認します。正しく機能させるには、ファイルを ドメインまたはサブドメインです。

robots.txt の問題を解決する方法

robots.txt が HTTP 5XX ステータス コードを返さないことを確認してください

サーバーからサーバーエラー(HTTP ステータス コード)が返された場合 500)の場合、robots.txt検索エンジンはどのページを 表示されます。その場合、サイト全体のクロールが停止され、新たな検出が インデックス登録されないようにできます。

HTTP ステータス コードを確認するには、Chrome で robots.txt を開き、 Chrome DevTools でリクエストを確認します。

robots.txt を 500 KiB 未満にします

ファイルが以下の場合、検索エンジンは robots.txt の処理を途中で停止することがあります。 500 KiB を超えるアプリケーションに適しています。その結果、検索エンジンが混乱して、 確認できます。

robots.txt のサイズを小さくするには、個別に除外されているページなどの要素を減らします パターンに焦点を合わせますたとえば、PDF ファイルのクロールをブロックする必要がある場合は、 許可しないように設定できます。代わりに、次を含む URL はすべて許可されません。 .pdfdisallow: /*.pdf を使用)。

形式エラーを修正してください

  • 「name: value」に一致する空の行、コメント、ディレクティブのみ robots.txt で許可。
  • allowdisallow の値は空にするか、/ または * で始まっていることを確認してください。
  • 値の途中で $ を使用しないでください(allow: /file$html など)。

user-agent の値があることを確認してください

検索エンジンのクローラーに、従うディレクティブを伝えるユーザー エージェント名。マイページ 検索エンジンが認識できるように、user-agent のインスタンスごとに値を指定する必要があります。 関連するディレクティブのセットに従うかどうかを指定できます。

特定の検索エンジン クローラーを指定するには、 公開済みリストです。(たとえば、 クロールに使用される Google のユーザー エージェントのリストをご覧ください)。

一致しないクローラをすべて一致させる場合は、* を使用します。

すべきでないこと
user-agent:
disallow: /downloads/

ユーザー エージェントは定義されていません。

すべきこと
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

一般的なユーザー エージェントと magicsearchbot ユーザー エージェントが定義されています。

user-agent の前に allow ディレクティブまたは disallow ディレクティブがないことを確認してください

ユーザー エージェント名は、robots.txt ファイルのセクションを定義します。検索エンジン クローラーはこれらのセクションを使用して、従うディレクティブを決定します。スペースを ディレクティブを最初の user-agent 名のに指定すると、その後にクローラは実行されません。 できます。

すべきでないこと
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

検索エンジン クローラは disallow: /downloads ディレクティブを読み取ることはありません。

すべきこと
# start of file
user-agent: *
disallow: /downloads/

すべての検索エンジンが /downloads フォルダのクロールを禁止しています。

検索エンジンのクローラーは、最も頻度の高いセクションのディレクティブのみに従います。 ユーザー エージェント名を指定します。たとえば、環境変数に user-agent: *user-agent: Googlebot-Image を使用しており、画像用 Googlebot は user-agent: Googlebot-Image セクションのディレクティブに従います。

sitemap に絶対 URL を指定してください

サイトマップ ファイルは、 検索エンジンにウェブサイトのページを知らせる優れた方法です。通常、サイトマップ ファイルには、サイトマップ、 ウェブサイトの URL、およびその最後にアクセスした日時に関する情報 変更されました。

robots.txt でサイトマップ ファイルを送信する場合は、 絶対 URL を使用する。

すべきでないこと
sitemap: /sitemap-file.xml
すべきこと
sitemap: https://example.com/sitemap-file.xml

リソース