Comment puis-je extraire efficacement le texte propre de HTML dans Python?

Page de garde > La programmation > Comment puis-je extraire efficacement le texte propre de HTML dans Python?

Comment puis-je extraire efficacement le texte propre de HTML dans Python?

Publié le 2025-03-04

Parcourir:219

How Can I Efficiently Extract Clean Text from HTML in Python?

Extraction du texte de html avec python

votre objectif est d'extraire le texte d'un fichier html en python, reproduisant la sortie que vous obtiendrez en copie le texte d'un solider et en le faisant dans un texte Éditeur.

défis

Les expressions régulières ne sont pas assez robustes pour HTML mal formé. Bien que la belle soupe soit souvent recommandée, elle peut ramasser du contenu indésirable comme JavaScript et ne pas interpréter des entités HTML.

Alternative prometteuse: html2text

Bien qu'il produit de markdown au lieu de texte brut, html2text hentre html entities correctement et ignore javascrip. Cependant, sa documentation et ses exemples sont limités. De BS4 Import BeautifulSoup url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen (url) .read () Soup = BeautifulSoup (HTML, fonctionnalités = "html.parser") # Supprimer les scripts et les styles pour le script dans la soupe (["script", "style"]): script.extract () # Extraire du texte text = soup.get_text () # Convertir les pauses de ligne et supprimer les espaces blancs lignes = (line.strip () pour la ligne dans le texte.splitlines ()) Chunks = (phrase.strip () pour la ligne en lignes pour la phrase en ligne.split ("")) text = '\ n'.join (morceau pour morceau en morceaux si morceau) print (text)

dépendance

Pour utiliser ce code, vous aurez besoin de biensoup4 installé avec:

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
soup = BeautifulSoup(html, features="html.parser")

# Remove scripts and styles
for script in soup(["script", "style"]):
    script.extract()

# Extract text
text = soup.get_text()

# Convert line breaks and remove whitespace
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
text = '\n'.join(chunk for chunk in chunks if chunk)

print(text)

Dernier tutoriel Plus>

Comment puis-je créer efficacement des dictionnaires en utilisant la compréhension Python?
Python Dictionary Comprehension Dans Python, les compréhensions du dictionnaire offrent un moyen concis de générer de nouveaux dictionnaires. Bi...

La programmation Publié le 2025-04-09
Pourquoi l'exécution de JavaScript cesse-t-elle lors de l'utilisation du bouton Firefox Retour?
Problème d'histoire de la navigation: JavaScript cesse d'exécuter après avoir utilisé le bouton de retour de Firefox Les utilisateurs ...

La programmation Publié le 2025-04-09
$Pourquoi la demande de postn \ 'ne capture-t-elle pas d'entrée en PHP malgré le code valide?$
Pourquoi la demande de postn \ 'ne capture-t-elle pas d'entrée en PHP malgré le code valide?
Adresses du post Demande Dysfonctionnement en php Dans l'extrait de code présenté: "Méthode =" post "> " ...

La programmation Publié le 2025-04-09
Comment vérifier si un objet a un attribut spécifique dans Python?
Méthode pour déterminer l'existence de l'attribut d'objet Cette enquête cherche une méthode pour vérifier la présence d'un att...

La programmation Publié le 2025-04-09
FIT OBJET: la couverture échoue dans IE et Edge, comment réparer?
objet-fit: la couverture échoue dans IE et Edge, comment corriger? Utilisation d'objet-fit: couverture; Dans CSS pour maintenir la hauteur...

La programmation Publié le 2025-04-09
Dois-je supprimer explicitement les allocations de tas en C ++ avant la sortie du programme?
Délétion explicite en C malgré la sortie du programme Lorsque vous travaillez avec l'allocation de mémoire dynamique en C, les développeur...

La programmation Publié le 2025-04-09
Java autorise-t-il plusieurs types de retour: un regard plus approfondi sur les méthodes génériques?
Plusieurs types de retour en java: une idée fausse dévoilée dans le domaine de la programmation java, une signature de méthode particulière pe...

La programmation Publié le 2025-04-09
Pourquoi Microsoft Visual C ++ ne parvient pas à implémenter correctement l'instanciation du modèle biphasé?
Le mystère de l'instanciation du modèle deux phases "Broken" dans Microsoft Visual C Instruction Problème: Les utilisateurs ex...

La programmation Publié le 2025-04-09
Comment capturer et diffuser Stdout en temps réel pour l'exécution de la commande chatbot?
Capturant stdout en temps réel à partir de l'exécution de commandes dans le domaine de l'élaboration de chatbots capables d'exécut...

La programmation Publié le 2025-04-09
Comment rediriger plusieurs types d'utilisateurs (étudiants, enseignants et administrateurs) vers leurs activités respectives dans une application Firebase?
Red: comment rediriger plusieurs types d'utilisateurs vers des activités respectives Comprendre le problème dans une application de vo...

La programmation Publié le 2025-04-09
Quelle méthode pour déclarer plusieurs variables en JavaScript est plus maintenable?
déclarant plusieurs variables dans javascript: explorant deux méthodes dans javascript, les développeurs rencontrent souvent la nécessité de d...

La programmation Publié le 2025-04-09
Comment récupérer la dernière bibliothèque jQuery des API Google?
Récupération de la dernière bibliothèque jQuery à partir de Google API L'URL jQuery fournie dans la question est pour la version 1.2.6. Po...

La programmation Publié le 2025-04-09
Pourquoi le corps {marge: 0; } `Supprimez toujours la marge supérieure dans CSS?
Addressant la suppression de la marge du corps dans CSS pour les développeurs Web novices, la suppression de la marge de l'élément corpore...

La programmation Publié le 2025-04-09
Comment afficher correctement la date et l'heure actuelles dans le format "DD / MM / YYYY HH: MM: SS.SS" en Java?
Comment afficher la date et l'heure actuelles dans "dd / mm / yyyy hh: mm: ss.ss" format dans le code java fourni, le problème a...

La programmation Publié le 2025-04-09
Pourquoi est-ce que je reçois une erreur "Je n'ai pas trouvé d'implémentation du modèle de requête" dans ma requête Silverlight Linq?
Absence d'implémentation du modèle de requête: Résolution "n'a pas pu trouver" Erreurs dans une application Silverlight, une...

La programmation Publié le 2025-04-09

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article