웹크롤링 robots.txt

티스토리 뷰

web crawling

tonirr 2020. 1. 18. 18:31

네이버, 구글에서 웹크롤링을 하려고하니 robots.txt.규약을 따라야 한다고 한다.

개인적인 용도로 한번 파싱하여 크롤링을 하는것은 문제가 없을 수도있으나

지속적으로 혹은 상업적인 용도로 사용한다면

그리고 로봇을 감지하여 사이트에서 ip차단등 조치를 취했음에도 우회하여 크롤링하는등의 행위는 위험하다고 하여

프로젝트를 도메인에 올리는 것까지는 생각을 해보아야 할 것 같다.

하지만 일정시간내에 얼마나 사이트를 요청해야 차단당하는지는 잘 모르겠다.. 아직 차단을 당해보지 않았다.

일단 작품을 완성하는 것이 중요하니 차단 당하는 경우 사이트 우회하는 방법을 찾아보았다..

일단 내가 찾은 방법은

selenium 으로 직접 조작하는 것에 가까운 형태로 크롤링하기
selenium으로 크롤링 하는 것은 url로 사이트를 요청했고 그 사이트에 바로 내가 가져올 정보들이 없는 경우나 동적 태그로 인해 바로 내가 태그를 파싱할 수 없을 때 사용한다. 직접 조작하기 때문에 동작이 느리고 무겁다.

2. user-agent방법 사용하기
로봇이 아닌 사용자가 직접 접속하는 것으로 인식하게끔(?) 만든다. 아직 해보지 않았지만 파이어폭스, 크롬 등 브라우저에 따라 id가 달라지고 그걸 header에 추가하여 사용하는 것 같다.

[web crawling] jsoup select로 파싱하기 vs 정규식으로 파싱 하기 (0)	2020.07.28
selenium 속도문제 url 직접연결, multiprocessing (0)	2020.01.18

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`