본문 바로가기

크롤링

크롤링 (Crawling)

웹 크롤링이란?

Web Crawling

소프트웨어 따위가 웹을 돌아다니며 유용한 정보를 찾아 특정 데이터베이스로 수집해 오는 작업. 또는 그러한 기술 [네이버 국어사전]

 

Web 상의 이미지, 텍스트 등의 콘텐츠를 수집하는 작업을 웹 크롤링이라고 한다

이 작업을 수행하는 소프트웨어 등을 웹 크롤러라고 함

 

Python을 이용한 크롤링의 기본은 BeatifulSoup 으로 시작

 

1. BeautifulSoup
2. HTML소스보기 및 태그(Tag) 탐색하기
3. 웹사이트 구조 분석하기 (개발자 도구)
4. 대상 값 가져오기

  - Tag 기반

  - CSS Selector 기반