파이썬 웹스크래핑with nomad coders[7]

pavk96 2020. 3. 8. 20:22

2020. 3. 8. 20:22

1. 웹 사이트가져오기

먼저 온라인 라이브러리를 사용한다

라이브러리란? 모듈과 동일하다 함수, 클래스 등등이 모여있는 집합체라고 이해할 수 있다

파이썬에 내장되어있는 모듈과 다르게 온라인 라이브러리는 강력하고 빠르게 데이터들을 추출할 수 있다

니꼬쌤은 requests2와 beautifulsoup4를 추천했다

requests2는 URL전체를 가져오는 용도이다

beautifulsoup4는 그것을 html태그로 읽어내는 용도이다

각각 Repl.it의 Packages에서 검색해서 다운로드할 수 있다

그리고 이런 식으로 불러온다

import requests
from bs4 import BeautifulSoup

이렇게 두가지 라이브러리를 불러왔다

우리가 찾고자하는 데이터는 채용공고의 제목,회사의 이름, 회사의 위치, 지원할 수 있는 링크이다

또 마지막페이지 번호가 필요한데 이것은 마지막 페이지까지의 정보를 다 스크래핑하기위해서 필요하다

requests 라이브러리를 통해 URL을 가져온다 그리고 result변수에 담아준다

result = requests.get(URL)

그리고 beautifulsoup 라이브러리를 통해 URL을 html형태로 파싱해서 데이터를 추출할 수 있다

마찬가지로 soup변수에 담아준다

파싱이란? 페이지 내 선택한 데이터를 순서나 패턴별로 추출하는 것이다

soup = BeautifulSoup(result.text, "html.parser")

우리는 html패턴으로 추출했다

import requests
from bs4 import BeautifulSoup


result = requests.get(URL)
soup = BeautifulSoup(result.text, "html.parser")

작성한 코드