빅 데이터 크롤링이란?

빅 데이터 크롤링은 인터넷에 퍼져 있는 대량의 데이터를 자동으로 수집하고, 분석하는 기술을 말한다. 이를 통해 기업은 자사 상품에 대한 소비자들의 반응을 파악하고, 경쟁사의 추세와 비교 분석을 할 수 있으며, 이를 바탕으로 마케팅 전략을 세울 수 있다.

빅 데이터 크롤링에 필요한 도구들

빅 데이터 크롤링에서 가장 많이 쓰이는 도구는 파이썬 기반의 웹크롤러와 스크래퍼다. Beautiful Soup, Scrapy, Selenium 등 여러 자료들이 많이 개발되어 있기 때문에 선택의 폭도 넓다.

Beautiful Soup

Beautiful Soup은 파이썬 라이브러리 중 하나로, 파서 라이브러리인 lxml, html5lib 등과 함께 사용되며, HTML과 XML 파일에서 데이터를 추출할 수 있게 한다. 웹에서 데이터를 추출할 때, HTML 문서에서 데이터를 가져오기 위해서는 HTML 태그 구조를 이해해야 하는데, Beautiful Soup은 이를 간편하게 추출할 수 있도록 해주는 라이브러리이다.

Scrapy

Scrapy는 대용량 크롤링과 크롤링 후 이를 구조화할 필요가 있는 경우, XML이나 JSON과 같은 구조체로 바꿔주는 오픈소스 크롤링 프레임워크이다. 내부적으로 Twisted를 이용하기 때문에, 비동기 처리를 할 때 편리하다. 게다가, Scrapy는 크롤링할 사이트의 URL을 연동해 추출할 데이터 셋을 만들어야 하는 장점이 있다.

Selenium

Selenium은 웹 어플리케이션을 자동으로 테스트하는 데에 사용되는 오픈소스 프레임워크이다. 스몰토크, 자바, C++, C#, 자바스크립트, 파이썬 등에서 사용할 수 있다. Selenium은 접속한 페이지의 HTML 소스를 다루기 위해 BeautifulSoup 라이브러리와 함께 사용될 수 있다.

빅 데이터 크롤링을 통한 예시

얼마 전 대한민국의 독점 여행 브랜드인 ‘한솔투어’가 머큐어셋인베스트먼트코리아와 손잡고 빅 데이터 분석 프로젝트를 진행했다. 여러 키워드화된 시각화 차트와 브랜드에서 판매하는 2,000개 이상의 상품들을 상세하게 분석한 결과, 한솔투어가 보유하고 있는 여행 상품 중 여성 대상 상품이 비중이 낮은 것으로 나타나, 이 부분에 대한 디자인 보완 필요성을 제시했다.

마무리

크롤링을 비롯한 데이터 수집 및 분석 업무는 빠르게 중요성을 강조하고 있는 분야이다. 그 만큼 각 분야별로 발전하고 정교한 기술력을 갖추고 능숙한 기술자가 필요하다. 이를 통해 기업의 경쟁력 확대와 사회적, 경제적 성장에 기여하고자 하는 것이다.