Comment Beautiful Soup est utilisé pour extraire des données du Web public

Page de garde > La programmation > Comment Beautiful Soup est utilisé pour extraire des données du Web public

Comment Beautiful Soup est utilisé pour extraire des données du Web public

Publié le 2024-08-01

Parcourir:428

How Beautiful Soup is used to extract data out of the Public Web

Beautiful Soup est une bibliothèque Python utilisée pour récupérer les données des pages Web. Il crée un arbre d'analyse pour analyser les documents HTML et XML, facilitant ainsi l'extraction des informations souhaitées.

Beautiful Soup fournit plusieurs fonctionnalités clés pour le web scraping :

Navigation dans l'arborescence d'analyse : Vous pouvez facilement naviguer dans l'arborescence d'analyse et rechercher des éléments, des balises et des attributs.
Modification de l'arborescence d'analyse : Il vous permet de modifier l'arborescence d'analyse, notamment en ajoutant, supprimant et mettant à jour les balises et les attributs.
Formatage de sortie : Vous pouvez reconvertir l'arborescence d'analyse en chaîne, ce qui facilite l'enregistrement du contenu modifié.

Pour utiliser Beautiful Soup, vous devez installer la bibliothèque avec un analyseur tel que lxml ou html.parser. Vous pouvez les installer en utilisant pip

#Install Beautiful Soup using pip.
pip install beautifulsoup4 lxml

Gestion de la pagination

Lorsqu'il s'agit de sites Web qui affichent du contenu sur plusieurs pages, la gestion de la pagination est essentielle pour récupérer toutes les données.

Identifiez la structure de pagination : Inspectez le site Web pour comprendre comment la pagination est structurée (par exemple, le bouton de la page suivante ou les liens numérotés).
Itérer sur les pages : Utilisez une boucle pour parcourir chaque page et récupérer les données.
Mettre à jour l'URL ou les paramètres : Modifiez l'URL ou les paramètres pour récupérer le contenu de la page suivante.

import requests
from bs4 import BeautifulSoup

base_url = 'https://example-blog.com/page/'
page_number = 1
all_titles = []

while True:
    # Construct the URL for the current page
    url = f'{base_url}{page_number}'
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Find all article titles on the current page
    titles = soup.find_all('h2', class_='article-title')
    if not titles:
        break  # Exit the loop if no titles are found (end of pagination)

    # Extract and store the titles
    for title in titles:
        all_titles.append(title.get_text())

    # Move to the next page
    page_number  = 1

# Print all collected titles
for title in all_titles:
    print(title)

Extraction de données imbriquées

Parfois, les données que vous devez extraire sont imbriquées dans plusieurs couches de balises. Voici comment gérer l'extraction de données imbriquées.

Accédez aux balises parent : Recherchez les balises parent qui contiennent les données imbriquées.
Extraire les balises imbriquées : Dans chaque balise parent, recherchez et extrayez les balises imbriquées.
Parcourir les balises imbriquées : Parcourez les balises imbriquées pour extraire les informations requises.

import requests
from bs4 import BeautifulSoup

url = 'https://example-blog.com/post/123'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Find the comments section
comments_section = soup.find('div', class_='comments')

# Extract individual comments
comments = comments_section.find_all('div', class_='comment')

for comment in comments:
    # Extract author and content from each comment
    author = comment.find('span', class_='author').get_text()
    content = comment.find('p', class_='content').get_text()
    print(f'Author: {author}\nContent: {content}\n')

Gestion des requêtes AJAX

De nombreux sites Web modernes utilisent AJAX pour charger des données de manière dynamique. La gestion d'AJAX nécessite différentes techniques, telles que la surveillance des requêtes réseau à l'aide d'outils de développement de navigateur et la réplication de ces requêtes dans votre scraper.

import requests
from bs4 import BeautifulSoup

# URL to the API endpoint providing the AJAX data
ajax_url = 'https://example.com/api/data?page=1'
response = requests.get(ajax_url)
data = response.json()

# Extract and print data from the JSON response
for item in data['results']:
    print(item['field1'], item['field2'])

Risques du Web Scraping

Le Web scraping nécessite un examen attentif des risques juridiques, techniques et éthiques. En mettant en œuvre des mesures de protection appropriées, vous pouvez atténuer ces risques et effectuer du web scraping de manière responsable et efficace.

Violations des conditions de service : de nombreux sites Web interdisent explicitement le scraping dans leurs conditions de service (ToS). La violation de ces conditions peut entraîner des poursuites judiciaires.
Problèmes de propriété intellectuelle : la suppression de contenu sans autorisation peut porter atteinte aux droits de propriété intellectuelle, entraînant des litiges juridiques.
Blocage IP : les sites Web peuvent détecter et bloquer les adresses IP présentant un comportement de grattage.
Interdictions de compte : si le scraping est effectué sur des sites Web nécessitant une authentification de l'utilisateur, le compte utilisé pour le scraping peut être banni.

Beautiful Soup est une bibliothèque puissante qui simplifie le processus de web scraping en fournissant une interface facile à utiliser pour naviguer et rechercher des documents HTML et XML. Il peut gérer diverses tâches d'analyse, ce qui en fait un outil essentiel pour quiconque cherche à extraire des données du Web.

Déclaration de sortie Cet article est reproduit sur : https://dev.to/marcosconci/how-beautiful-soup-is-used-to-extract-data-out-of-the-public-web-51gg?1 En cas de violation , veuillez contacter study_golang @163.comdelete

Dernier tutoriel Plus>

Python Lire le fichier CSV UnicodedeCodeerror Ultimate Solution
Unicode Decode Erreur dans la lecture du fichier CSV Lorsque vous essayez de lire un fichier CSV dans Python à l'aide du module CSV intégr...

La programmation Publié le 2025-04-18
Docker Practice: Apprenez Dockerfile, Container and Port Foreing via le projet FLASK
Ce didacticiel démontre la création et le déploiement d'une application FLASK simple à l'aide de Docker. Nous couvrirons la création d'u...

La programmation Publié le 2025-04-18
Testez le routage des variables de chemin Go-Chi: résolvez l'échec de l'erreur d'entité
Tester les routes CHI avec des variables de chemin: dépannage et solutions dans go-chi, l'accès des variables de chemin dans les routes es...

La programmation Publié le 2025-04-18
Comment puis-je récupérer efficacement les valeurs d'attribut à partir de fichiers XML à l'aide de PHP?
Récupération des valeurs d'attribut à partir de fichiers xml dans php Chaque développeur rencontre la nécessité de analyser les fichiers X...

La programmation Publié le 2025-04-18
Comment puis-je lire efficacement un grand fichier dans l'ordre inverse à l'aide de Python?
en lisant un fichier dans l'ordre inverse dans python Si vous travaillez avec un grand fichier et que vous devez lire son contenu de la de...

La programmation Publié le 2025-04-18
Méthode JavaScript pour calculer le nombre de jours entre deux dates
Comment calculer la différence entre les dates dans javascrip Dates: const date1 = new Date ('7/13/2010'); const date2 = new Date (&#...

La programmation Publié le 2025-04-18
Méthode pour convertir correctement les caractères Latin1 en UTF8 dans UTF8 MySQL Table
Convertir les caractères latins1 dans une table utf8 en utf8 Vous avez rencontré un problème où les caractères avec diacritique (par exemple, ...

La programmation Publié le 2025-04-18
Python Metaclass Principe de travail et création et personnalisation de classe
Que sont les métaclasses dans python? Les métaclasses sont responsables de la création d'objets de classe dans Python. Tout comme les classe...

La programmation Publié le 2025-04-18
Quand une application Web GO ferme-t-elle la connexion de la base de données?
Gestion des connexions de bases de données dans les applications Web Go Dans les applications Web simples GO qui utilisent des bases de données ...

La programmation Publié le 2025-04-18
Comment réparer « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion de données ?
Comment résoudre « Erreur générale : le serveur MySQL 2006 a disparu » lors de l'insertion d'enregistrementsIntroduction :L'insertion de d...

La programmation Publié le 2025-04-18
PHP génère une méthode de chaîne alphanumérique aléatoire sûre
générant des chaînes alphanumériques aléatoires dans diverses applications, telles que les liens de vérification du compte, il est crucial de ...

La programmation Publié le 2025-04-18
Comment sélectionner efficacement les colonnes dans Pandas DataFrames?
Sélection des colonnes dans Pandas DataFrames Lorsque vous traitez des tâches de manipulation de données, la sélection de colonnes spécifiques...

La programmation Publié le 2025-04-18
Conseils de mise à jour des risques dynamiques Python et Excel
Mises à jour dynamiques basées sur les risques utilisant Python et Excel " Dans ce blog, nous prendrons un simple script de mise à j...

La programmation Publié le 2025-04-18
Daytona m'aide à optimiser le processus de développement
En tant que développeur travaillant sur des projets qui nécessitent un environnement de développement fluide, une cohérence entre les machines et ...

La programmation Publié le 2025-04-18
Comment puis-je maintenir le rendu de cellules JTable personnalisé après l'édition de cellules?
En maintenant le rendu de cellules JTable après la modification de cellule dans un JTable, implémentant les capacités de rendu et d'éditio...

La programmation Publié le 2025-04-18

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article