Learing HTML -теги в Python для нетронутого текстового представления
манипулирование ответами HTML часто включает в себя извлечение соответствующего текстового содержимого при удалении форматирующего тегов. Это может быть достигнуто с помощью эффективной съемки HTML-тегов, оставляя вас с желаемым простым текстом.
достижение только текстового извлечения с помощью Python's MlStripper
, чтобы укротить процесс снятия, стандартная библиотека Python обеспечивает эффективную функцию, MLStripper, разработано для этого. MlStripper принимает HTML ввода и анализирует его, сохраняя только контент не Markup.
] реализация для Python 3 и 2
в зависимости от версии Python, вы можете использовать следующий код:
из io import stryoio от html.parser import htmlparser Класс MlStripper (htmlparser): def __init __ (self): super () .__ init __ () self.reset () self.strict = false self.convert_charrefs = true self.text = stringio () def harder_data (self, d): self.text.write (d) def get_data (self): вернуть self.text.getValue () def Strip_tags (html): s = mlstripper () S.Feed (HTML) return s.get_data ()
from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()python 2:
из Htmlparser import htmlparser от Stringio Import Stringio Класс MlStripper (htmlparser): def __init __ (self): self.reset () self.text = stringio () def harder_data (self, d): self.text.write (d) def get_data (self): вернуть self.text.getValue () def Strip_tags (html): s = mlstripper () S.Feed (HTML) return s.get_data ()
from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()usage:
просто вызовите функцию strip_tags, передавая ввод HTML как аргумент строки. Возвращенное значение будет разряженной строкой со всеми удаленными HTML -тегами.
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3