robots.txt
파일은 검색엔진에 사이트 페이지 중 어떤 페이지를 포함할 수 있는지 알려줍니다.
있습니다. robots.txt
구성이 잘못되면 두 가지 유형의 문제가 발생할 수 있습니다.
- 검색엔진이 공개 페이지를 크롤링하지 못하게 하여 검색결과에 표시되는 빈도를 줄일 수 있습니다.
- 사용자가 검색결과에 표시하지 않았으면 하는 페이지를 검색엔진에서 크롤링할 수 있습니다. 있습니다.
Lighthouse robots.txt
감사가 실패하는 경우
Lighthouse 플래그가 잘못됨
파일 robots.txt
개:
보고서에서 유효하지 않음 robots.txt
감사를 펼칩니다.
robots.txt
에 어떤 문제가 있는지 알아보세요.
일반적인 오류는 다음과 같습니다.
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse는 robots.txt
파일이 다음과 같은지 확인하지 않습니다.
올바른 위치에 놓으세요 제대로 작동하려면 파일이
변경할 수 있습니다.
robots.txt
관련 문제 해결 방법
robots.txt
에서 HTTP 5XX 상태 코드를 반환하지 않는지 확인하세요.
서버가 서버 오류 (HTTP 상태 코드
500초)라는 robots.txt
의 경우 검색 엔진은
확인할 수 있습니다 사이트 전체의 크롤링을 중단하여
콘텐츠 색인 생성이 차단될 수 있습니다.
HTTP 상태 코드를 확인하려면 Chrome에서 robots.txt
를 열고
Chrome DevTools에서 요청을 확인합니다.
robots.txt
을(를) 500KiB 미만으로 유지하세요.
파일이robots.txt
500KiB보다 큰 용량을
사용하는 것으로 간주됩니다 이렇게 하면 검색엔진이 혼란스러워서 잘못된 정보를
도움이 됩니다.
robots.txt
의 크기를 작게 하려면 개별적으로 제외된 페이지에 덜 집중하는 등의 작업을 하세요.
연구 결과를 얻게 될 것입니다 예를 들어 PDF 파일의 크롤링을 차단하려면
허용해서는 안 됩니다 대신
disallow: /*.pdf
를 사용하여 .pdf
.
형식 오류 수정
- 'name: value'와 일치하는 빈 줄, 주석, 지시어만 형식은
robots.txt
에서 허용됩니다. allow
및disallow
값이 비어 있거나/
또는*
로 시작하는지 확인합니다.$
를 값 중간에 사용하지 마세요 (예:allow: /file$html
).
user-agent
값이 있어야 합니다.
검색엔진 크롤러에 따라야 할 명령어를 알려주는 user-agent 이름입니다. 나
검색엔진이 알 수 있도록 user-agent
의 각 인스턴스에 대한 값을 제공해야 합니다.
지시어 집합을 따르는지 여부입니다.
특정 검색엔진 크롤러를 지정하려면 확인할 수 있습니다 예를 들어 크롤링에 사용되는 Google의 user-agent 목록을 참조하세요.
일치하지 않는 모든 크롤러를 일치시키려면 *
를 사용합니다.
user-agent: disallow: /downloads/
정의된 사용자 에이전트가 없습니다.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
일반 사용자 에이전트와 magicsearchbot
사용자 에이전트가 정의됩니다.
user-agent
앞에 allow
또는 disallow
지시어가 없는지 확인합니다.
사용자 에이전트 이름은 robots.txt
파일의 섹션을 정의합니다. 검색엔진
크롤러는 이 섹션을 사용하여 어떤 지시어를 따라야 할지 결정합니다. 배치
명령어를 첫 번째 user-agent 이름 앞에 추가하면 어떤 크롤러도
있습니다.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
disallow: /downloads
지시어는 검색엔진 크롤러에서 읽지 않습니다.
# start of file user-agent: * disallow: /downloads/
모든 검색엔진에서 /downloads
폴더를 크롤링할 수 없습니다.
검색엔진 크롤러는
특정 user-agent 이름일 수 있습니다. 예를 들어
user-agent: *
및 user-agent: Googlebot-Image
, Googlebot 이미지는
user-agent: Googlebot-Image
섹션의 지시어를 따르세요.
sitemap
의 절대 URL을 입력하세요.
사이트맵 파일은 검색엔진에 웹사이트 페이지에 대해 알릴 수 있는 가장 좋은 방법입니다. 일반적으로 사이트맵 파일에는 웹사이트의 URL과 해당 URL이 마지막으로 있었던 시간에 대한 정보 변경할 수 있습니다.
robots.txt
에서 사이트맵 파일을 제출하려면
절대 URL을 사용하세요.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml