¿Cómo puedo extraer eficientemente el texto limpio de HTML en Python?

Página delantera > Programación > ¿Cómo puedo extraer eficientemente el texto limpio de HTML en Python?

¿Cómo puedo extraer eficientemente el texto limpio de HTML en Python?

Publicado el 2025-03-04

Navegar:527

How Can I Efficiently Extract Clean Text from HTML in Python?

extrayendo texto de html con python

Su objetivo es extraer texto de un archivo html en python, replicando la salida que obtenga copiando el texto de un avicultura y pasando por un texto en un texto editor.

desafíos

Las expresiones regulares no son lo suficientemente robustas para html mal formado. Si bien a menudo se recomienda una sopa hermosa, puede recoger contenido no deseado como JavaScript y no interpretar las entidades HTML.

alternativa prometedora: html2Text

aunque produce un marcado en lugar de texto sin formato, html2Text manejas html correctamente e ignora javascript. Sin embargo, su documentación y ejemplos son limitados.

Código óptimo para la extracción de texto

el siguiente ofrece una solución efectiva que filtra los elementos no deseados y preserva las entidades HTML:

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
soup = BeautifulSoup(html, features="html.parser")

# Remove scripts and styles
for script in soup(["script", "style"]):
    script.extract()

# Extract text
text = soup.get_text()

# Convert line breaks and remove whitespace
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
text = '\n'.join(chunk for chunk in chunks if chunk)

print(text)

dependency

para usar este código, necesitará beautifulSoup4 instalado con:

pip install beautifulsoup4

Último tutorial Más>

¿Cómo puedo personalizar las optimizaciones de compilación en el compilador GO?
Personalización de optimizaciones de compilación En compilador GO El proceso de compilación predeterminado en Go sigue una estrategia de optim...

Programación Publicado el 2025-04-09
¿Existe una diferencia de rendimiento entre usar un bucle for-ENTRES y un iterador para la transmisión de recorrido en Java?
para cada bucle vs. iterator: eficiencia en la colección traversal introduction cuando la colección en java, la opción, la opción iba entr...

Programación Publicado el 2025-04-09
¿Cómo limitar el rango de desplazamiento de un elemento dentro de un elemento principal de tamaño dinámico?
implementando límites de altura de CSS para los elementos de desplazamiento vertical en una interfaz interactiva, controlar el comportamiento ...

Programación Publicado el 2025-04-09
¿Puedes usar CSS para la salida de la consola de color en Chrome y Firefox?
que muestra los colores en la console JavaScript es posible usar la consola de Chrome para mostrar texto coloreado, como rojo para errores, na...

Programación Publicado el 2025-04-09
¿Por qué no `cuerpo {margen: 0; } `¿Siempre elimina el margen superior en CSS?
abordando la eliminación del margen del cuerpo en css para desarrolladores web novatos, eliminar el margen del elemento corporal puede ser una...

Programación Publicado el 2025-04-09
¿Cómo convertir eficientemente las zonas horarias en PHP?
Conversión de zona horaria eficiente en php en PHP, el manejo de las zonas horarias puede ser una tarea directa. Esta guía proporcionará un méto...

Programación Publicado el 2025-04-09
Eval () vs. AST.LITERAL_EVAL (): ¿Qué función de Python es más segura para la entrada del usuario?
pesando eval () y Ast.literal_eval () en Python Security Al manejar la entrada del usuario, es imperativo priorizar la seguridad. eval (), una...

Programación Publicado el 2025-04-09
¿Cómo combinar datos de tres tablas MySQL en una nueva tabla?
mysql: creando una nueva tabla de datos y columnas de tres tablas pregunta: ¿cómo puedo crear una nueva tabla que combine los datos selecci...

Programación Publicado el 2025-04-09
¿Cómo enviar una solicitud de publicación en bruto con Curl en PHP?
Cómo enviar una solicitud de publicación sin procesar usando curl en php en php, Curl es una biblioteca popular para enviar solicitudes HTTP. ...

Programación Publicado el 2025-04-09
¿Cómo puedo crear eficientemente diccionarios utilizando la comprensión de Python?
Python Dictionary Comprension en Python, las comprensiones del diccionario ofrecen una forma concisa de generar nuevos diccionarios. Si bien son...

Programación Publicado el 2025-04-09
¿Se pueden apilar múltiples elementos adhesivos uno encima del otro en CSS puro?
¿Es posible tener múltiples elementos pegajosos apilados uno encima del otro en CSS puro? El comportamiento deseado se puede ver Aquí: https...

Programación Publicado el 2025-04-09
¿Cómo se extraen un elemento aleatorio de una matriz en PHP?
Selección aleatoria de una matriz en php, la obtención de un elemento aleatorio de una matriz se puede lograr con facilidad. Considere la siguie...

Programación Publicado el 2025-04-09
¿Por qué cesan la ejecución de JavaScript cuando se usa el botón de retroceso de Firefox?
Problema de historial de navegación: JavaScript deja de ejecutar después de usar el botón de retroceso de Firefox Los usuarios de Firefox pued...

Programación Publicado el 2025-04-09
¿Cómo mostrar correctamente la fecha y hora actuales en el formato "DD/MM/YYYY HH: MM: SS.SS" en Java?
cómo mostrar la fecha y la hora actuales en "dd/mm/aa radica en el uso de diferentes instancias de SimpleFormat con diferentes patrones de f...

Programación Publicado el 2025-04-09
¿Por qué recibo un error de "no pude encontrar una implementación del patrón de consulta" en mi consulta de Silverlight Linq?
Ausencia de implementación del patrón de consulta: Resolver "no se pudo encontrar" errores en una aplicación de Silverlight, un inte...

Programación Publicado el 2025-04-09

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo