Exemple de web scraping dynamique Python : application de Selenium et Webdriver

Page de garde > La programmation > Exemple de web scraping dynamique Python : application de Selenium et Webdriver

Exemple de web scraping dynamique Python : application de Selenium et Webdriver

Publié le 2024-09-02

Parcourir:592

Python dynamic web scraping example: application of selenium and webdriver

Le scraping dynamique du Web utilise généralement certaines bibliothèques Python, telles que les requêtes pour gérer les requêtes HTTP, le sélénium pour simuler le comportement du navigateur ou pyppeteer. L'article suivant se concentrera sur l'utilisation du sélénium.

Une brève introduction au sélénium

selenium est un outil permettant de tester des applications Web, mais il est également souvent utilisé pour le web scraping, en particulier lorsqu'il est nécessaire de supprimer du contenu Web généré dynamiquement par JavaScript. Le sélénium peut simuler le comportement de l'utilisateur dans le navigateur, tel que cliquer, saisir du texte et obtenir des éléments de page Web.

Exemple de scraping Web dynamique Python

Tout d’abord, assurez-vous que Selenium est installé. Sinon, vous pouvez l'installer via pip :

pip install selenium

Vous devez également télécharger le WebDriver pour le navigateur correspondant. ‌En supposant que nous utilisons le navigateur Chrome,‌ vous devez télécharger ChromeDriver et vous assurer que son chemin est ajouté aux variables d'environnement système,‌ ou vous pouvez spécifier son chemin directement dans le code. ‌

Voici un exemple simple pour récupérer le titre d'une page Web :‌

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Setting up webdriver
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

# Open the webpage
driver.get('https://www.example.com')

# Get the webpage title
title = driver.title

print(title)

# Close the browser
driver.quit()

Ce script ouvrira example.com, obtiendra son titre et l'imprimera. ‌

Notez que ‌webdriver_manager est une bibliothèque tierce qui gère automatiquement les versions de WebDriver. ‌Si vous ne souhaitez pas l'utiliser, vous pouvez également télécharger manuellement WebDriver et spécifier le chemin. ‌

Les pages Web dynamiques peuvent impliquer du contenu rendu en JavaScript. ‌selenium peut attendre que ces éléments se chargent avant de fonctionner, ce qui est très approprié pour traiter de telles pages Web. ‌

Définir un proxy lors du scraping de pages Web dynamiques en python

Lorsque vous utilisez Python pour explorer des pages Web dynamiques, vous utilisez souvent un proxy. L’utilisation d’un proxy évite de nombreux obstacles d’une part et accélère l’efficacité du travail d’autre part.

Nous avons présenté l'installation du sélénium ci-dessus. De plus, vous devez également télécharger le WebDriver du navigateur correspondant et vous assurer que son chemin est ajouté aux variables d'environnement du système, ou vous pouvez spécifier son chemin directement dans le code.
Après avoir terminé les étapes ci-dessus, nous pouvons configurer le proxy et supprimer les pages Web dynamiques :

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# Set Chrome options
chrome_options = Options()
chrome_options.add_argument('--proxy-server=http://your_proxy_ip:port')

# Specify the WebDriver path (if you have added the WebDriver path to the system environment variables, you can skip this step)
# driver_path = 'path/to/your/chromedriver'
# driver = webdriver.Chrome(executable_path=driver_path, options=chrome_options)

# If WebDriver path is not specified, the default path is used (make sure you have added WebDriver to your system environment variables)
driver = webdriver.Chrome(options=chrome_options)

# Open the webpage
driver.get('https://www.example.com')

# Get the webpage title
title = driver.title

print(title)

# Close the browser
driver.quit()

Dans cet exemple, ‌--proxy-server=http://your_proxy_ip:port est le paramètre de configuration du proxy.‌ Vous devez remplacer your_proxy_ip et port par l'adresse IP et le numéro de port du serveur proxy que vous utilisez réellement. utiliser

Si votre serveur proxy nécessite une authentification,‌ vous pouvez utiliser le format suivant :‌

chrome_options.add_argument('--proxy-server=http://username:password@your_proxy_ip:port')

Où le nom d'utilisateur et le mot de passe sont le nom d'utilisateur et le mot de passe de votre serveur proxy. ‌

Après avoir exécuté le code ci-dessus, ‌selenium accédera à la page Web cible via le serveur proxy configuré‌ et imprimera le titre de la page Web. ‌
Comment spécifier le chemin d'accès à ChromeDriver ?
ChromeDriver fait partie de Selenium WebDriver. Il interagit avec le navigateur Chrome via l'API WebDriver pour implémenter des fonctions telles que les tests automatisés et les robots d'exploration Web. ‌
Spécifier le chemin de ChromeDriver implique principalement la configuration des variables d'environnement. ‌Voici les étapes spécifiques : ‌
1. Rechercher l'emplacement d'installation de Chrome
Vous pouvez le trouver en cliquant avec le bouton droit sur le raccourci Google Chrome sur le bureau et en sélectionnant « Ouvrir l'emplacement du fichier ». ‌
2. Ajoutez le chemin d'installation de Chrome à la variable d'environnement système Path
Cela permet au système de reconnaître ChromeDriver à n'importe quel endroit. ‌
3. Téléchargez et décompressez ChromeDriver
Assurez-vous de télécharger le ChromeDriver correspondant à la version du navigateur Chrome et de le décompresser dans un programme exe. ‌
4. Copiez le fichier exe de ChromeDriver dans le chemin d'installation de Chrome
De cette façon, lorsque vous devez utiliser ChromeDriver, le système peut automatiquement le reconnaître et l'appeler

Ce qui précède est l'application de Selenium et de Webdriver dans l'exploration Web dynamique de Python, et comment l'éviter lors de l'exploration de pages Web. Bien entendu, vous pouvez également pratiquer des opérations réelles à travers les exemples ci-dessus.

Déclaration de sortie Cet article est reproduit sur : https://dev.to/lewis_kerr_2d0d4c5b886b02/python-dynamic-web-scraping-example-application-of-selenium-and-webdriver-3330?1 En cas d'infraction, veuillez contacter study_golang@163 .com pour le supprimer

Dernier tutoriel Plus>

Pourquoi ma configuration de GO à Homebrew provoque-t-elle des problèmes d'exécution de ligne de commande?
Brew Go Configuration vs Exécution de la ligne de commande Vous avez initialement installé aller à l'aide de Homebrew, un gestionnaire de ...

La programmation Publié le 2025-03-14
Pourquoi les images affichent-elles des images à l'aide de la propriété CSS «Content»?
Affichage des images avec URL de contenu dans Firefox Un problème a été rencontré lorsque certains navigateurs, spécifiquement Firefox, n'...

La programmation Publié le 2025-03-14
Comment supprimer proprement les gestionnaires d'événements JavaScript anonymes?
supprimer les auditeurs d'événements anonymes Ajouter des auditeurs d'événements anonymes aux éléments offre une flexibilité et une simp...

La programmation Publié le 2025-03-14
Pourquoi une grille avec des colonnes 100% grid-template s'étend-elle au-delà du corps lors de l'utilisation du positionnement fixe?
La grille dépasse le corps avec 100% grid-template-columns Pourquoi une grille d'affichage avec 100% dans les colonnes de la grille s'...

La programmation Publié le 2025-03-14
Java autorise-t-il plusieurs types de retour: un regard plus approfondi sur les méthodes génériques?
Plusieurs types de retour en java: une idée fausse dévoilée dans le domaine de la programmation java, une signature de méthode particulière pe...

La programmation Publié le 2025-03-14
Comment extraire du texte entre parenthèses efficacement en PHP en utilisant Regex
php: extraire du texte dans les parenthèses de manière optimale lors de l'extraction de texte enfermé entre parenthèses, il est essentiel ...

La programmation Publié le 2025-03-14
$Pourquoi la demande de postn \ 'ne capture-t-elle pas d'entrée en PHP malgré le code valide?$
Pourquoi la demande de postn \ 'ne capture-t-elle pas d'entrée en PHP malgré le code valide?
Adresses du post Demande Dysfonctionnement en php Dans l'extrait de code présenté: "Méthode =" post "> " ...

La programmation Publié le 2025-03-14
Comment limiter la plage de défilement d'un élément dans un élément parent de taille dynamique?
Implémentation de limites de hauteur CSS pour les éléments de défilement vertical dans une interface interactive, le contrôle du comportement ...

La programmation Publié le 2025-03-14
Pourquoi mon image d'arrière-plan CSS apparaît-elle?
Troubleshoot: Image d'arrière-plan CSS n'apparaissant pas Vous avez rencontré un problème où votre image d'arrière-plan échoue mal...

La programmation Publié le 2025-03-14
Quelles ont été les restrictions sur l'utilisation de Current_timestamp avec des colonnes horodatotes dans MySQL avant la version 5.6.5?
Restrictions sur les colonnes horodat Clause actuelle_timestamp. Cette limitation s'est étendue aux entiers INT, BigInt et SmallInt lorsqu'...

La programmation Publié le 2025-03-14
Comment réparer « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion de données ?
Comment résoudre « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion d'enregistrementsIntroduction :L'insertion de d...

La programmation Publié le 2025-03-14
Comment définir dynamiquement les touches dans les objets JavaScript?
Comment créer une clé dynamique pour une variable d'objet JavaScript lorsque vous essayez de créer une clé dynamique pour un objet JavaScrip...

La programmation Publié le 2025-03-14
Comment vérifier si un objet a un attribut spécifique dans Python?
Méthode pour déterminer l'existence de l'attribut d'objet Cette enquête cherche une méthode pour vérifier la présence d'un att...

La programmation Publié le 2025-03-14
Comment récupérer efficacement la dernière ligne pour chaque identifiant unique dans PostgreSQL?
PostgreSQL: Extraction de la dernière ligne pour chaque identifiant unique Dans PostgreSql, vous pouvez rencontrer des situations de données o...

La programmation Publié le 2025-03-14
Comment résoudre les écarts de chemin du module dans GO Mod en utilisant la directive Remplacer?
surmonter la divergence du chemin du module dans go mod Lors de l'utilisation de Go Mod, il est possible de rencontrer un conflit où un pa...

La programmation Publié le 2025-03-14

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article