반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 이마트와인
- 삼양맵탱
- 이마트와인장터
- 용인중앙시장
- 와인초특가
- 이마트
- 초밥
- 10월와인
- 자연에서갈아만든생와사비
- 10월장터
- 용인야시장
- 강아지간식
- mysql1267
- 와사비
- 10월와인장터
- 용인강아지놀이터
- 주비푸드
- gs25
- 기흥반려견놀이터
- 별빛마당
- 용인중앙시장야시장
- gs25맵탱
- 반려견놀이터
- 와인장터
- 고추냉이
- 와인특가
- 와인할인
- 생와사비
- 샘표계란이맛있어지는간장
- 스시
Archives
- Today
- Total
기억의 기록
[크롤링] selenium 을 이용한 지연 크롤링 본문
반응형
selenium 은 웹브라우저를 콘트롤 하여(WebDriver를 이용) 웹을 테스트하기 위한 용도로 쓰였으나 크롤링에도 유용하다.
HTML 구성 후 자바스크립트로 해당 데이터를 변경하는 경우 일반 크롤링으론 불가능하기 때문에 selenium을 이용하여 WebDriver 에 표시되는
데이터를 가져와야 한다.
WebDriver 는 아래의 URL에서 받을 수 있다.
https://chromedriver.storage.googleapis.com/index.html
버젼 확인하고 자신에게 맞는 드라이버를 다운로드 하면 된다.
상단의 내용만 다르고 이후 크롤링 방식은 동일하다.
from bs4 import BeautifulSoup as bs from selenium import webdriver import requests import pandas as pd driver = webdriver.Chrome() #driver = webdriver.Chrome(executable_path=r"C:\ccc\chromedriver.exe") driver.get('https://coinmarketcap.com/ko/') driver.implicitly_wait(3) src = driver.page_source #src.status_code soup = bs(src, 'html.parser') src_tbody = soup.find("tbody") |
원화로 표시된 최종 데이터를 추출했다.
반응형
'데이터 분석 > 툴' 카테고리의 다른 글
[ELK Stack] 2 - Elastic Search (0) | 2018.07.09 |
---|---|
[ELK Stack] 1 - JVM (0) | 2018.07.09 |
[ELK Stack] 0 - 시작하며 (0) | 2018.07.09 |
[크롤링] 페이지를 이동하여 원하는 데이터 가져오기 (0) | 2018.07.04 |
[크롤링] 크롤링 기초 (0) | 2018.07.04 |