1. 웹 사이트가져오기
먼저 온라인 라이브러리를 사용한다
라이브러리란? 모듈과 동일하다 함수, 클래스 등등이 모여있는 집합체라고 이해할 수 있다
파이썬에 내장되어있는 모듈과 다르게 온라인 라이브러리는 강력하고 빠르게 데이터들을 추출할 수 있다
니꼬쌤은 requests2와 beautifulsoup4를 추천했다
requests2는 URL전체를 가져오는 용도이다
beautifulsoup4는 그것을 html태그로 읽어내는 용도이다
각각 Repl.it의 Packages에서 검색해서 다운로드할 수 있다
그리고 이런 식으로 불러온다
import requests
from bs4 import BeautifulSoup
이렇게 두가지 라이브러리를 불러왔다
우리가 찾고자하는 데이터는 채용공고의 제목,회사의 이름, 회사의 위치, 지원할 수 있는 링크이다
또 마지막페이지 번호가 필요한데 이것은 마지막 페이지까지의 정보를 다 스크래핑하기위해서 필요하다
requests 라이브러리를 통해 URL을 가져온다 그리고 result변수에 담아준다
result = requests.get(URL)
그리고 beautifulsoup 라이브러리를 통해 URL을 html형태로 파싱해서 데이터를 추출할 수 있다
마찬가지로 soup변수에 담아준다
파싱이란? 페이지 내 선택한 데이터를 순서나 패턴별로 추출하는 것이다
soup = BeautifulSoup(result.text, "html.parser")
우리는 html패턴으로 추출했다
import requests
from bs4 import BeautifulSoup
result = requests.get(URL)
soup = BeautifulSoup(result.text, "html.parser")
작성한 코드
'노마드코더스 아카데미 > 파이썬으로 웹스크래퍼 만들기' 카테고리의 다른 글
파이썬 웹스크래핑with nomad coders[9] (0) | 2020.03.09 |
---|---|
파이썬 웹스크래핑with nomad coders[8] (0) | 2020.03.08 |
파이썬 웹스크래핑with nomad coders[6] (0) | 2020.03.08 |
파이썬 웹스크래핑with nomad coders[5] (0) | 2020.03.05 |
파이썬 웹스크래핑with nomad coders[4] (0) | 2020.03.05 |