"Se um trabalhador quiser fazer bem o seu trabalho, ele deve primeiro afiar suas ferramentas." - Confúcio, "Os Analectos de Confúcio. Lu Linggong"
Primeira página > Programação > Maneira eficiente do Python de remover tags html do texto

Maneira eficiente do Python de remover tags html do texto

Postado em 2025-04-13
Navegar:185

How Can I Efficiently Strip HTML Tags from Text in Python?

removendo tags html em python para uma representação textual intocada

manipular respostas html geralmente envolve a extração de texto relevante enquanto eliminando as tags formatadas. Isso pode ser obtido retirando efetivamente as tags HTML, deixando você com o texto simples desejado. O Mlstripper pega a entrada HTML e o analisa, preservando apenas o conteúdo não-markup. 3:] de html.parser importar htmlparser Classe MLStripper (htmlParser): def __init __ (self): super () .__ init __ () self.reset () self.strict = false self.convert_charrefs = true self.text = stringio () def handle_data (self, d): self.text.write (d) def get_data (self): return self.text.getValue () def Strip_tags (html): s = mlstripper () S.Feed (HTML) Return s.get_data ()

python 2:

do htmlParser importar htmlparserSer De Stringio Import Stringio Classe MLStripper (htmlParser): def __init __ (self): self.reset () self.text = stringio () def handle_data (self, d): self.text.write (d) def get_data (self): return self.text.getValue () def Strip_tags (html): s = mlstripper () S.Feed (HTML) Retorne s.get_data ()

uso:

basta chamar a função Strip_tags que passa a entrada HTML como um argumento de string. O valor retornado será uma string despojada com todas as tags HTML removidas.

Tutorial mais recente Mais>

Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.

Copyright© 2022 湘ICP备2022001581号-3