«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > программирование > Python эффективный способ удаления HTML -тегов из текста

Python эффективный способ удаления HTML -тегов из текста

Опубликовано в 2025-04-13
Просматривать:655

How Can I Efficiently Strip HTML Tags from Text in Python?

Learing HTML -теги в Python для нетронутого текстового представления

манипулирование ответами HTML часто включает в себя извлечение соответствующего текстового содержимого при удалении форматирующего тегов. Это может быть достигнуто с помощью эффективной съемки HTML-тегов, оставляя вас с желаемым простым текстом.

достижение только текстового извлечения с помощью Python's MlStripper

, чтобы укротить процесс снятия, стандартная библиотека Python обеспечивает эффективную функцию, MLStripper, разработано для этого. MlStripper принимает HTML ввода и анализирует его, сохраняя только контент не Markup.

] реализация для Python 3 и 2

в зависимости от версии Python, вы можете использовать следующий код:

из io import stryoio от html.parser import htmlparser Класс MlStripper (htmlparser): def __init __ (self): super () .__ init __ () self.reset () self.strict = false self.convert_charrefs = true self.text = stringio () def harder_data (self, d): self.text.write (d) def get_data (self): вернуть self.text.getValue () def Strip_tags (html): s = mlstripper () S.Feed (HTML) return s.get_data ()

from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
python 2:

из Htmlparser import htmlparser от Stringio Import Stringio Класс MlStripper (htmlparser): def __init __ (self): self.reset () self.text = stringio () def harder_data (self, d): self.text.write (d) def get_data (self): вернуть self.text.getValue () def Strip_tags (html): s = mlstripper () S.Feed (HTML) return s.get_data ()

from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
usage:

просто вызовите функцию strip_tags, передавая ввод HTML как аргумент строки. Возвращенное значение будет разряженной строкой со всеми удаленными HTML -тегами.

Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3