robots.txt 확인 방법

robots.txt는 사이트의 루트 디렉토리에 위치합니다. 예를 들어 "https://www.example.com"이라는 사이트의 robots.txt를 보려면 "https://www.example.com/robots.txt"를 치면 됩니다.

[출처] [크롤링] 웹 크롤링 전 반드시 알아야 할 사항 : robots.txt|작성자 Mr WOO

[파이썬] 웹크롤링 이용할시 알아야할 규칙 robots.txt

User-agent : 어떤 유형의 유저들에게 규칙 적용하는지

Disallow : 제한되는 페이지

Allow : 허용하는 페이지

[출처] [파이썬] 웹크롤링 이용할시 알아야할 규칙 robots.txt*|*작성자 조해

예를 들어, 다나와 홈페이지의 경우

https://www.danawa.com/robots.txt 를 접속하면

# robots.txt for <http://www.danawa.com/>

User-agent: HMSE_Robot
Disallow: /

User-agent: bingbot
Crawl-delay: 3600

User-agent: *
Disallow: /user_report/

Sitemap: <http://www.danawa.com/WWW_main.xml>