[ 파이썬 ] 웹페이지 크롤링 방법

program_language 및 궁금한것/R 빅데이터 2019. 12. 21. 19:50

for x in categorys:
    print(x.text)

주피터 노트북에서 아래 작업을 해준다.

from bs4 import BeautifulSoup as bs
import requests as req

url = '원하는 url';
resp = req.get(url)

브라우저에 보이는 화면을 parseHtml로 가져온다.

soup 변수에 해당 값을 넣어준다.

categorys 변수에 내가 크롤링할 태그를 가져온다. >는 어떤 태그 안의 태그이다.

parseHtml=response.text
soup=bs(parseHtml, 'html.parser')
categorys = soup.select('#by_category > .list-unstyled > li > a')

출력을 해보면 내가 가져오려는 리스트가 나온다.

for x in categorys:
    print(x.text)

[R] 데이터 읽어오기 (pdf, csv,txt, clipboard, xlxs) (0)	2019.12.07
[아나콘다] 주피터 초기 경로 세팅 (0)	2019.06.11
[R] numpy, pandas 사용하기 (0)	2019.06.08
[R] date package install 하기 (0)	2019.06.08
[R] 주피터노트북 폰트(글씨체) 변경 (0)	2019.06.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

인기포스트