robots.txt

덤프버전 :

1. 개요
2. 사용예
2.1. 유명한 로봇들
2.2. 나무위키의 robots.txt
2.3. 구글의 robots.txt

robots.txt 로봇 배제 표준
공식사이트


1. 개요[편집]


robots.txt는 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약이다. 아직 권고안이라 꼭 지킬 의무는 없다.

크롤러들은 주로 검색엔진들의 인덱싱 목적으로 사용되는데, 웹사이트들 입장에서도 더 많은 검색 노출을 원하는게 일반적이므로 딱히 막을 이유는 없다. 다만 서버의 트래픽이 한정돼있거나 검색엔진에의 노출을 원하지 않는 경우, 이 robots.txt에 “안내문” 형식으로 특정 경로에 대한 크롤링을 자제해 줄 것을 권고하는 것이다. 지킬 의무가 없다고 하나 지켜주는 게 상식이며, 마찬가지로 서버 주인 입장에서는 규칙을 지키지 않는 크롤링이 들어오는데도 계속해서 서비스를 제공할 의무 또한 없으므로 크롤러의 아이피를 차단하면 그만이다.

robots.txt는 웹사이트의 최상위 경로(=루트)에 있어야 한다. 즉, 사이트를 치고 슬래시 후 바로 robots.txt를 넣으면 볼 수 있다는 것이다. ex) http://namu.wiki/robots.txt


2. 사용예[편집]


반드시 폴더명 맨 끝에 /를 붙여야 한다. 붙이지 않으면 확장자가 없는 파일로 인식하기 때문에 제대로 작동하지 않는다.

특정 디렉토리의 접근을 허가하려면
User-agent: 제어할 로봇의 User-Agent
Allow: /foo/bar/

특정 디렉토리의 접근을 차단하려면
User-agent: 제어할 로봇의 User-Agent
Disallow: /foo/bar/

모든 문서에 대해 접근을 허가하려면 (사실상 의미는 없다.)
User-agent: *
Allow: /
사용 중인 사이트: 기글하드웨어 등.

모든 문서에 대해 접근을 차단하려면
User-agent: *
Disallow: /
사용 중인 사이트: 다음 메인화면 및 검색결과[1] 등.

모든 문서에 대해 접근을 차단하고, 첫 페이지에 대해서만 허가
User-agent: *
Disallow: /
Allow : /$
사용 중인 사이트: 네이버 메인화면[2], 네이트 메인화면, 메인화면 등.


2.1. 유명한 로봇들[편집]


http://user-agent-string.info/list-of-ua/bots
이름
User-Agent
Google
Googlebot
Google image
Googlebot-image
Msn
MSNBot
Naver
Yeti[3]
Daum
Daumoa


2.2. 나무위키의 robots.txt[편집]


https://namu.wiki/robots.txt에서 확인할 수 있다.


2.3. 구글의 robots.txt[편집]


http://www.google.com/robots.txt에서 볼 수 있다.


파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-11-06 21:01:29에 나무위키 robots.txt 문서에서 가져왔습니다.

[1] 웬만한 서비스는 모두 크롤링을 금지하고 있는 네이버와 달리 다음은 메인화면과 검색결과 한정으로 크롤링을 금지한다.[2] 즉, 네이버는 첫 페이지는 제외하고 크롤링을 절대 금한다는 말이 된다. 크롤링해서 먹고사는 회사가 크롤링을 막는다![3] 2005년 이전에는 NaverBot.