"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > Selenium을 Scrapy to Scrape Dynamic Pages와 어떻게 통합할 수 있나요?

Selenium을 Scrapy to Scrape Dynamic Pages와 어떻게 통합할 수 있나요?

2024년 11월 19일에 게시됨
검색:740

How can Selenium be Integrated with Scrapy to Scrape Dynamic Pages?

동적 페이지용 Scrapy와 Selenium 통합

동적 콘텐츠가 포함된 복잡한 웹사이트를 스크랩할 때 웹 자동화 프레임워크인 Selenium을 다음과 통합할 수 있습니다. 웹 스크래핑 프레임워크인 Scrapy를 사용하여 문제를 극복하세요.

Selenium을 Scrapy Spider에 통합

Selenium을 Scrapy 스파이더에 통합하려면 스파이더의 Selenium WebDriver를 초기화하세요. __init__ 메소드.

import scrapy
from selenium import webdriver

class ProductSpider(scrapy.Spider):
    name = "product_spider"
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/shanghai']
    
    def __init__(self):
        self.driver = webdriver.Firefox()

다음으로, 구문 분석 메소드 내에서 URL로 이동하고 Selenium 메소드를 활용하여 페이지와 상호작용합니다.

def parse(self, response):
    self.driver.get(response.url)
    next = self.driver.find_element_by_xpath('//td[@class="pagn-next"]/a')
    next.click()

이 접근 방식을 활용하면 사용자 상호 작용을 시뮬레이션하고, 동적 페이지를 탐색하고, 원하는 데이터를 추출할 수 있습니다.

Scrapy와 함께 Selenium을 사용하는 대안

특정 시나리오에서는 ScrapyJS 미들웨어를 사용하면 Selenium에 의존하지 않고도 페이지의 동적 부분을 처리하는 데 충분할 수 있습니다. 예를 들어 다음 예를 참조하세요.

# scrapy.cfg
DOWNLOADER_MIDDLEWARES = {
    'scrapyjs.SplashMiddleware': 580,
}
# my_spider.py
class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://example.com/dynamic']
    
    def parse(self, response):
        script = 'function() { return document.querySelectorAll("div.product-info").length; }'
        return Request(url=response.url, callback=self.parse_product, meta={'render_javascript': True, 'javascript': script})

    def parse_product(self, response):
        product_count = int(response.xpath('//*[@data-scrapy-meta]/text()').extract_first())

이 접근 방식은 ScrapyJS를 사용하여 JavaScript 렌더링을 사용하여 별도의 작업 없이 원하는 데이터를 얻습니다. 셀레늄을 사용합니다.

최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3