HAYOUNG'S MEMO

크롤링 본문

자연어처리

크롤링

HAyOunG0518 2019. 2. 12. 05:02

우리가 흔히 부르는 웹 크롤러 크롤링의 정식명칭은 'Web Scraping' 입니다. 외국 자료를 찾으려고 하니까 'Web Crawling' 보다는 'Web Scraping' 이라는 용어를 자주 사용하더군요.

"Web scraping is a computer software technique of extracting information from websites."
-> 웹 크롤링이란 컴퓨터 소프트웨어 기술로 웹 사이트들에서 원하는 정보를 추출하는 것을 의미합니다.

 웹 크롤러란 인터넷에 있는 웹페이지를 방문해서 자료를 수집하는 일을 하는 프로그램을 말합니다. 이때 한 페이지만 방문하는 것이 아니라 그 페이지에 링크되어 있는 또 다른 페이지를 차례대로 방문하고 이처럼 링크를 따라 웹을 돌아다니는 모습이 마치 거미와 비슷하다고 해서 스파이더라고 부르기도 합니다. 엄청난 분량의 웹문서를 사람이 일일 구별해서 모으는 일은 불가능에 가깝습니다. 때문에 웹 문서 검색에서는 사람이 일일이 하는 대신 이를 자동으로 수행해 줍니다. 


 웹은 기본적으로 HTML 형태로 되어 있는 건 다들 아실 겁니다. 저희가 눈으로 볼 수 있다면, 해당 정보가 HTML 형태로 어떻게 보여지는지도 '페이지 소스 보기' 또는 '개발자 검사' 로 볼 수 있습니다. 이런 소스들은 보통 개발자들이 어떤 정형화된 형태로 관리하고 있습니다. 때문에 규칙이 생기죠. 이런 규칙을 분석해서 우리가 원하는 정보들만 뽑아오는 것을 웹 크롤링 작업이라고 생각하시면 됩니다.

 한국에서도 웹 크롤링 할 일이 많기 때문에 알바를 구하는 구인 광고도 본 적이 있고 네이버, 다음, 구글 등등 여러 포털 사이트 블로그에 크롤링 하는 방법을 치면 나오는 정보들도 많습니다. 가장 많이 나오는 것이 Python으로 크롤링 하는 소스들이 제일 흔하죠.