robots.txt가 유효하지 않음

robots.txt 파일은 검색엔진에 사이트 페이지 중 어떤 페이지를 포함할 수 있는지 알려줍니다. 있습니다. robots.txt 구성이 잘못되면 두 가지 유형의 문제가 발생할 수 있습니다.

  • 검색엔진이 공개 페이지를 크롤링하지 못하게 하여 검색결과에 표시되는 빈도를 줄일 수 있습니다.
  • 사용자가 검색결과에 표시하지 않았으면 하는 페이지를 검색엔진에서 크롤링할 수 있습니다. 있습니다.

Lighthouse robots.txt 감사가 실패하는 경우

Lighthouse 플래그가 잘못됨 파일 robots.txt개:

<ph type="x-smartling-placeholder">
</ph> 잘못된 robots.txt를 보여주는 Lighthouse 감사

보고서에서 유효하지 않음 robots.txt 감사를 펼칩니다. robots.txt에 어떤 문제가 있는지 알아보세요.

일반적인 오류는 다음과 같습니다.

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse는 robots.txt 파일이 다음과 같은지 확인하지 않습니다. 올바른 위치에 놓으세요 제대로 작동하려면 파일이 변경할 수 있습니다.

robots.txt 관련 문제 해결 방법

robots.txt에서 HTTP 5XX 상태 코드를 반환하지 않는지 확인하세요.

서버가 서버 오류 (HTTP 상태 코드 500초)라는 robots.txt의 경우 검색 엔진은 확인할 수 있습니다 사이트 전체의 크롤링을 중단하여 콘텐츠 색인 생성이 차단될 수 있습니다.

HTTP 상태 코드를 확인하려면 Chrome에서 robots.txt를 열고 Chrome DevTools에서 요청을 확인합니다.

robots.txt을(를) 500KiB 미만으로 유지하세요.

파일이robots.txt 500KiB보다 큰 용량을 사용하는 것으로 간주됩니다 이렇게 하면 검색엔진이 혼란스러워서 잘못된 정보를 도움이 됩니다.

robots.txt의 크기를 작게 하려면 개별적으로 제외된 페이지에 덜 집중하는 등의 작업을 하세요. 연구 결과를 얻게 될 것입니다 예를 들어 PDF 파일의 크롤링을 차단하려면 허용해서는 안 됩니다 대신 disallow: /*.pdf를 사용하여 .pdf.

형식 오류 수정

  • 'name: value'와 일치하는 빈 줄, 주석, 지시어만 형식은 robots.txt에서 허용됩니다.
  • allowdisallow 값이 비어 있거나 / 또는 *로 시작하는지 확인합니다.
  • $를 값 중간에 사용하지 마세요 (예: allow: /file$html).

user-agent 값이 있어야 합니다.

검색엔진 크롤러에 따라야 할 명령어를 알려주는 user-agent 이름입니다. 나 검색엔진이 알 수 있도록 user-agent의 각 인스턴스에 대한 값을 제공해야 합니다. 지시어 집합을 따르는지 여부입니다.

특정 검색엔진 크롤러를 지정하려면 확인할 수 있습니다 예를 들어 크롤링에 사용되는 Google의 user-agent 목록을 참조하세요.

일치하지 않는 모든 크롤러를 일치시키려면 *를 사용합니다.

금지사항
user-agent:
disallow: /downloads/

정의된 사용자 에이전트가 없습니다.

권장사항
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

일반 사용자 에이전트와 magicsearchbot 사용자 에이전트가 정의됩니다.

user-agent 앞에 allow 또는 disallow 지시어가 없는지 확인합니다.

사용자 에이전트 이름은 robots.txt 파일의 섹션을 정의합니다. 검색엔진 크롤러는 이 섹션을 사용하여 어떤 지시어를 따라야 할지 결정합니다. 배치 명령어를 첫 번째 user-agent 이름 앞에 추가하면 어떤 크롤러도 있습니다.

금지사항
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

disallow: /downloads 지시어는 검색엔진 크롤러에서 읽지 않습니다.

권장사항
# start of file
user-agent: *
disallow: /downloads/

모든 검색엔진에서 /downloads 폴더를 크롤링할 수 없습니다.

검색엔진 크롤러는 특정 user-agent 이름일 수 있습니다. 예를 들어 user-agent: *user-agent: Googlebot-Image, Googlebot 이미지는 user-agent: Googlebot-Image 섹션의 지시어를 따르세요.

sitemap의 절대 URL을 입력하세요.

사이트맵 파일은 검색엔진에 웹사이트 페이지에 대해 알릴 수 있는 가장 좋은 방법입니다. 일반적으로 사이트맵 파일에는 웹사이트의 URL과 해당 URL이 마지막으로 있었던 시간에 대한 정보 변경할 수 있습니다.

robots.txt에서 사이트맵 파일을 제출하려면 절대 URL을 사용하세요.

금지사항
sitemap: /sitemap-file.xml
권장사항
sitemap: https://example.com/sitemap-file.xml

리소스