Python Efficace Way de supprimer les balises HTML du texte

Page de garde > La programmation > Python Efficace Way de supprimer les balises HTML du texte

Python Efficace Way de supprimer les balises HTML du texte

Publié le 2025-04-13

Parcourir:477

How Can I Efficiently Strip HTML Tags from Text in Python?

Déroup des balises HTML en python pour une représentation textuelle vierge

manipulant les réponses HTML à extraire le contenu de texte pertinent tout en éliminant les étiquettes de formatage. Cela peut être réalisé en dépouillant efficacement les balises HTML, vous laissant avec le texte brut souhaité.

Atteindre une extraction de texte uniquement avec le processus de décapage de Python, la bibliothèque standard de Python fournit une fonction efficace, Mlstripper, conçu spécialement pour ce but. MlStripper prend l'entrée HTML et l'analyse, ne préservant que le contenu non markup.

Implémentation pour Python 3 et 2

En fonction de votre version python, vous pouvez utiliser les snippets de code suivants:

à partir de io import stringio De Html.Parser Import htmlparser Classe Mlstripper (HTMLParser): def __init __ (soi): super () .__ init __ () self.reset () self.strict = false self.convert_charrefs = true self.text = stringio () def handle_data (self, d): self.text.write (d) def get_data (self): return self.text.getValue () def strip_tags (html): s = mlstripper () S.Feed (HTML) return s.get_data ()

from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

de htmlparser import htmlparser à partir de stringio import stringio Classe Mlstripper (HTMLParser): def __init __ (soi): self.reset () self.text = stringio () def handle_data (self, d): self.text.write (d) def get_data (self): return self.text.getValue () def strip_tags (html): s = mlstripper () S.Feed (HTML) return s.get_data ()

from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

Appelez simplement la fonction strip_tags passant l'entrée html en tant qu'argument de chaîne. La valeur renvoyée sera une chaîne dépouillée avec toutes les balises HTML supprimées.

Cette technique s'avère inestimable lorsque vous devez travailler avec des données textuelles extraites de sources HTML, garantissant une représentation de texte propre et gérable.

Dernier tutoriel Plus>

Guide de création dynamique MySQL dynamique: ID utilisateur entier
Pivot Tables dans MySQL avec des colonnes dynamiques Cette question aborde le défi de créer des tables pivot MySQL avec des colonnes dynamique...

La programmation Publié le 2025-04-13
Comment puis-je exécuter des commandes d'invites de commande, y compris les modifications du répertoire, en Java?
Exécuter des commandes d'invite de commande dans java Problème: Les commandes de commande de commande de commande via java peuvent êtr...

La programmation Publié le 2025-04-13
Analyse de la différence entre Range et XRange dans Python 2.
Comprendre les différences entre les fonctions Range et Xrange dans Python 2.x python 2.x fournit deux fonctions, Range et Xrange, pour générer ...

La programmation Publié le 2025-04-13
Résolvez le problème du saut automatique de l'ID incrémental dans les séquences de base de données
dépannage Auto Incrément ID saut Les colonnes d'incrément automatique sont une caractéristique fondamentale des bases de données relationn...

La programmation Publié le 2025-04-13
Comment pouvez-vous définir les variables dans les modèles de lame Laravel avec élégance?
Définition des variables dans les modèles de lame Laravel avec élégance Comprendre comment attribuer des variables dans les modèles de lame es...

La programmation Publié le 2025-04-13
Comment convertir efficacement les fuseaux horaires en PHP?
Conversion efficace du fuseau horaire en php Dans PHP, la gestion des fuseaux horaires peut être une tâche simple. Ce guide fournira une méthode...

La programmation Publié le 2025-04-13
Comment puis-je styliser la première instance d'un type d'élément spécifique sur un document HTML entier?
correspondant au premier élément d'un certain type dans tout le document Styling Le premier élément d'un type spécifique à travers un...

La programmation Publié le 2025-04-13
Compétences de requête de tri multi-colonnes Laravel
Tri de colonnes multiples avec Laravel Query Builder Triant une requête Laravel par plusieurs colonnes est un processus simple qui tire la mét...

La programmation Publié le 2025-04-13
Comment puis-je configurer Pytesseract pour une reconnaissance à un chiffre avec une sortie numéro uniquement?
Pytesseract OCR avec une reconnaissance à un chiffre unique et des contraintes de numéro uniquement dans le contexte de Pytesseract, la config...

La programmation Publié le 2025-04-13
Introduction de sécurité des méthodes de fichiers CSS et JS externes via HTTPS
Inclusion sécurisée de fichiers CSS et JS externes via Https lors de l'incorporation des fichiers CSS et JS externes dans votre site Web, ...

La programmation Publié le 2025-04-13
Comment rediriger plusieurs types d'utilisateurs (étudiants, enseignants et administrateurs) vers leurs activités respectives dans une application Firebase?
Red: comment rediriger plusieurs types d'utilisateurs vers des activités respectives Comprendre le problème dans une application de vo...

La programmation Publié le 2025-04-13
Comment fusionner efficacement les listes de python triées? Utilisez le module Heapq
combinant des listes triées en python: une approche efficace étant donné deux listes triées d'objets basés sur une propriété de datetime, ...

La programmation Publié le 2025-04-13
Comment afficher correctement la date et l'heure actuelles dans le format "DD / MM / YYYY HH: MM: SS.SS" en Java?
Comment afficher la date et l'heure actuelles dans "dd / mm / yyyy hh: mm: ss.ss" format dans le code java fourni, le problème a...

La programmation Publié le 2025-04-13
Pourquoi est-ce que je reçois une erreur "Je n'ai pas trouvé d'implémentation du modèle de requête" dans ma requête Silverlight Linq?
Absence d'implémentation du modèle de requête: Résolution "n'a pas pu trouver" Erreurs dans une application Silverlight, une...

La programmation Publié le 2025-04-13
Comment puis-je maintenir le rendu de cellules JTable personnalisé après l'édition de cellules?
En maintenant le rendu de cellules JTable après la modification de cellule dans un JTable, implémentant les capacités de rendu et d'éditio...

La programmation Publié le 2025-04-13

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article