removendo tags html em python para uma representação textual intocada
manipular respostas html geralmente envolve a extração de texto relevante enquanto eliminando as tags formatadas. Isso pode ser obtido retirando efetivamente as tags HTML, deixando você com o texto simples desejado. O Mlstripper pega a entrada HTML e o analisa, preservando apenas o conteúdo não-markup. 3:] de html.parser importar htmlparser Classe MLStripper (htmlParser): def __init __ (self): super () .__ init __ () self.reset () self.strict = false self.convert_charrefs = true self.text = stringio () def handle_data (self, d): self.text.write (d) def get_data (self): return self.text.getValue () def Strip_tags (html): s = mlstripper () S.Feed (HTML) Return s.get_data ()
python 2:
do htmlParser importar htmlparserSer De Stringio Import Stringio Classe MLStripper (htmlParser): def __init __ (self): self.reset () self.text = stringio () def handle_data (self, d): self.text.write (d) def get_data (self): return self.text.getValue () def Strip_tags (html): s = mlstripper () S.Feed (HTML) Retorne s.get_data ()
uso:
basta chamar a função Strip_tags que passa a entrada HTML como um argumento de string. O valor retornado será uma string despojada com todas as tags HTML removidas.
Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.
Copyright© 2022 湘ICP备2022001581号-3