Python base study

web crawling (웹 크롤링) 크롤링 전 알고 가야 할 지식 1

서여랑 2023. 3. 24. 12:19

1. 웹 크롤링 정의 

웹 크롤링은 필요한 데이터가 있는 웹페이지에서 원하는 정보를 가져오는 것을 말한다.

 

더 알아봐야 그저 난잡한 글이 될 것으로 예상.

크롤링을 하면서 주의할 점이 몇가지 있는데  첫번째로, 크롤링 하려고 하는 웹 서버에 원하는 데이터를 요청하는 방식으로 크롤링을 하게 될 텐데 이런 요청이 늘어날수록 상대방 서버에 걸리는 부하가 커지므로 과부하를 만들어 피해를 입히지 않도록 주의해야 한다. 그리고 두번째로, 크롤링한 데이터를 무분별하게 상업적으로 이용하면 심각한 문제를 발생 시킬 수 있으므로 주의해야 한다.

 

2. 웹의 기본적인 구조

 기본적으로 웹은 요청에 의한 응답 형식으로 이루어져 있다. 클라이언트가 어떠한 메서드를 이용해 요청을 하면 그에 응답하는 방식으로 동작한다. 응답하는 방식은 HTTP, HTML, 하이퍼텍스트 등의 방식으로 응답하게 되는데 이 방식을 이용해 문자나 이미지 등의 데이터를 respon 하는 방식이다.

  앞서 클라이언트의 요청에 의해 응답한다고 언급했는데 보통 크롤링을 하기 위해서는 이 요청방법의 메서드가 어떤 종류에 의해 응답하는지가 중요한 요소로 작용 할 수 있다. 메서드에는 POST, GET, PUT, DELETE의 방식들이 있지만, 크롤링을 막 시작 했다면 이 요청 방법의 메서드 중에 POST 방식GET 방식 주로 두가지만 알고 간다면 크롤링을 하기 위한 기본 지식으로서는 충분하다.

 

GET 방식 : 서버에 자원을 요청한다. 

POST 방식 : 서버에 데이터를 전송한다. 요청한 내용이 보이지 않는다.

 

 단순히 이야기 하자면 위처럼 짧게 말할 수 있겠다. GET 방식과 POST 방식에 관해 참고 할 만한 곳을 둘러보던중 내가 정리하는 글을 보는 것 보다 잘 정리된 것을 한번 보는것이 더 좋을것 같아 링크를 첨부했다.

 

*블로그 참조

GET and POST what is different?