데이터 크롤링
기본 방법[편집 | 원본 편집]
과정 | 설명 | 방법 |
---|---|---|
url 열기 | url 문서를 연다.
뷰티플 스프를 불러오는 과정에 유의하자. |
from bs4 import BeautifulSoup
from urllib.request import urlopen
with urlopen(url) as 문서: # 이처럼 열어 사용한다. with을 사용하면 save()를 따로 할 필요가 없다.
명령
|
BeautifulSoup와 연결 | 특정 html 문서를 파서와 연결한다. | html = BeautifulSoup(문서, lxml) # 파서 라이브러리를 lxml로 지정해 사용한다.
|
태그 찾기 | 위 명령 부분에 작성한다.
find_all() 혹은 find() 사용. |
내용 = html.find('찾을태그', class_='찾을클래스')
find_all()은 결과를 리스트로 반환한다.
|