동적 페이지용 Scrapy와 Selenium 통합
동적 콘텐츠가 포함된 복잡한 웹사이트를 스크랩할 때 웹 자동화 프레임워크인 Selenium을 다음과 통합할 수 있습니다. 웹 스크래핑 프레임워크인 Scrapy를 사용하여 문제를 극복하세요.
Selenium을 Scrapy Spider에 통합
Selenium을 Scrapy 스파이더에 통합하려면 스파이더의 Selenium WebDriver를 초기화하세요. __init__ 메소드.
import scrapy from selenium import webdriver class ProductSpider(scrapy.Spider): name = "product_spider" allowed_domains = ['example.com'] start_urls = ['http://example.com/shanghai'] def __init__(self): self.driver = webdriver.Firefox()
다음으로, 구문 분석 메소드 내에서 URL로 이동하고 Selenium 메소드를 활용하여 페이지와 상호작용합니다.
def parse(self, response): self.driver.get(response.url) next = self.driver.find_element_by_xpath('//td[@class="pagn-next"]/a') next.click()
이 접근 방식을 활용하면 사용자 상호 작용을 시뮬레이션하고, 동적 페이지를 탐색하고, 원하는 데이터를 추출할 수 있습니다.
Scrapy와 함께 Selenium을 사용하는 대안
특정 시나리오에서는 ScrapyJS 미들웨어를 사용하면 Selenium에 의존하지 않고도 페이지의 동적 부분을 처리하는 데 충분할 수 있습니다. 예를 들어 다음 예를 참조하세요.
# scrapy.cfg DOWNLOADER_MIDDLEWARES = { 'scrapyjs.SplashMiddleware': 580, }
# my_spider.py class MySpider(scrapy.Spider): name = 'my_spider' start_urls = ['http://example.com/dynamic'] def parse(self, response): script = 'function() { return document.querySelectorAll("div.product-info").length; }' return Request(url=response.url, callback=self.parse_product, meta={'render_javascript': True, 'javascript': script}) def parse_product(self, response): product_count = int(response.xpath('//*[@data-scrapy-meta]/text()').extract_first())
이 접근 방식은 ScrapyJS를 사용하여 JavaScript 렌더링을 사용하여 별도의 작업 없이 원하는 데이터를 얻습니다. 셀레늄을 사용합니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3