"Si un ouvrier veut bien faire son travail, il doit d'abord affûter ses outils." - Confucius, "Les Entretiens de Confucius. Lu Linggong"
Page de garde > La programmation > Comment Selenium peut-il être intégré à Scrapy pour gratter des pages dynamiques ?

Comment Selenium peut-il être intégré à Scrapy pour gratter des pages dynamiques ?

Publié le 2024-11-19
Parcourir:982

How can Selenium be Integrated with Scrapy to Scrape Dynamic Pages?

Intégration de Selenium avec Scrapy pour les pages dynamiques

Lors du scraping de sites Web complexes avec du contenu dynamique, Selenium, un framework d'automatisation Web, peut être intégré à Scrapy, un framework de scraping Web, pour surmonter les défis.

Intégrer Selenium dans un Scrapy Spider

Pour intégrer Selenium dans votre Spider Scrapy, initialisez le Selenium WebDriver dans le fichier de l'araignée. Méthode __init__.

import scrapy
from selenium import webdriver

class ProductSpider(scrapy.Spider):
    name = "product_spider"
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/shanghai']
    
    def __init__(self):
        self.driver = webdriver.Firefox()

Ensuite, accédez à l'URL dans la méthode d'analyse et utilisez les méthodes Selenium pour interagir avec la page.

def parse(self, response):
    self.driver.get(response.url)
    next = self.driver.find_element_by_xpath('//td[@class="pagn-next"]/a')
    next.click()

En utilisant cette approche, vous pouvez simuler les interactions des utilisateurs, naviguer dans des pages dynamiques et extraire les données souhaitées.

Alternative à l'utilisation de Selenium avec Scrapy

Dans certains scénarios, l'utilisation du middleware ScrapyJS peut suffire pour gérer les parties dynamiques d'une page sans recourir à Selenium. Par exemple, consultez l'exemple suivant :

# scrapy.cfg
DOWNLOADER_MIDDLEWARES = {
    'scrapyjs.SplashMiddleware': 580,
}
# my_spider.py
class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://example.com/dynamic']
    
    def parse(self, response):
        script = 'function() { return document.querySelectorAll("div.product-info").length; }'
        return Request(url=response.url, callback=self.parse_product, meta={'render_javascript': True, 'javascript': script})

    def parse_product(self, response):
        product_count = int(response.xpath('//*[@data-scrapy-meta]/text()').extract_first())

Cette approche utilise le rendu JavaScript à l'aide de ScrapyJS pour obtenir les données souhaitées sans en utilisant du sélénium.

Dernier tutoriel Plus>

Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.

Copyright© 2022 湘ICP备2022001581号-3