eliminando las etiquetas HTML en Python para una representación textual prístina
manipular las respuestas HTML a menudo implica extraer contenido de texto relevante mientras se elimina las etiquetas de formato. Esto se puede lograr eliminando efectivamente las etiquetas HTML, dejándole con el texto sin formato deseado.
logrando la extracción de texto solo con la mlStripper de Python
para agilizar el proceso de extracción, la biblioteca estándar de Python proporciona una función eficiente, mlstripe, diseñada especificadamente para el propósito. MlStripper toma la entrada y la analiza solo el contenido no de Markup.
Implementación para Python 3 y 2
dependiendo de su versión de Python, puede utilizar los siguientes trabajos de código:
Python 3:
de IO import stringio de html.parser import htmlParser Clase MlStripper (htmlParser): def __init __ (self): super () .__ init __ () self.reset () self.strict = falso self.convert_charrefs = True self.text = stringio () Def Handle_Data (Self, D): self.text.write (D) Def get_data (self): return self.text.getValue () def strip_tags (html): s = mlstriper () S.Feed (HTML) return s.get_data ()from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
python 2:
desde htmlparser import htmlparser Desde Stringio Import Stringio Clase MlStripper (htmlParser): def __init __ (self): self.reset () self.text = stringio () Def Handle_Data (Self, D): self.text.write (D) Def get_data (self): return self.text.getValue () def strip_tags (html): s = mlstriper () S.Feed (HTML) return s.get_data ()from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
use:
simplemente llame a la función strip_tags pasando la entrada html como un argumento de cadena. El valor devuelto será una cadena despojada con todas las etiquetas HTML eliminadas.Esta técnica resulta invaluable cuando necesita trabajar con datos textuales extraídos de fuentes HTML, asegurando una representación de texto limpia y manejable.
Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3