robots.txt
덤프버전 :
분류
robots.txt 로봇 배제 표준
공식사이트
1. 개요[편집]
robots.txt는 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약이다. 아직 권고안이라 꼭 지킬 의무는 없다.
크롤러들은 주로 검색엔진들의 인덱싱 목적으로 사용되는데, 웹사이트들 입장에서도 더 많은 검색 노출을 원하는게 일반적이므로 딱히 막을 이유는 없다. 다만 서버의 트래픽이 한정돼있거나 검색엔진에의 노출을 원하지 않는 경우, 이 robots.txt에 “안내문” 형식으로 특정 경로에 대한 크롤링을 자제해 줄 것을 권고하는 것이다. 지킬 의무가 없다고 하나 지켜주는 게 상식이며, 마찬가지로 서버 주인 입장에서는 규칙을 지키지 않는 크롤링이 들어오는데도 계속해서 서비스를 제공할 의무 또한 없으므로 크롤러의 아이피를 차단하면 그만이다.
robots.txt는 웹사이트의 최상위 경로(=루트)에 있어야 한다. 즉, 사이트를 치고 슬래시 후 바로 robots.txt를 넣으면 볼 수 있다는 것이다. ex) http://namu.wiki/robots.txt
2. 사용예[편집]
반드시 폴더명 맨 끝에 /를 붙여야 한다. 붙이지 않으면 확장자가 없는 파일로 인식하기 때문에 제대로 작동하지 않는다.
특정 디렉토리의 접근을 허가하려면
특정 디렉토리의 접근을 차단하려면
모든 문서에 대해 접근을 허가하려면 (사실상 의미는 없다.)
사용 중인 사이트: 기글하드웨어 등.
모든 문서에 대해 접근을 차단하려면
사용 중인 사이트: 다음 메인화면 및 검색결과[1] 등.
모든 문서에 대해 접근을 차단하고, 첫 페이지에 대해서만 허가
사용 중인 사이트: 네이버 메인화면[2] , 네이트 메인화면, 줌 메인화면 등.
2.1. 유명한 로봇들[편집]
http://user-agent-string.info/list-of-ua/bots
2.2. 나무위키의 robots.txt[편집]
https://namu.wiki/robots.txt에서 확인할 수 있다.
2.3. 구글의 robots.txt[편집]
http://www.google.com/robots.txt에서 볼 수 있다.
이 문서의 내용 중 전체 또는 일부는 2023-11-06 21:01:29에 나무위키 robots.txt 문서에서 가져왔습니다.