¿Cómo extraer texto de archivos PDF utilizando la API PDFMiner actualizada en Python?

Página delantera > Programación > ¿Cómo extraer texto de archivos PDF utilizando la API PDFMiner actualizada en Python?

¿Cómo extraer texto de archivos PDF utilizando la API PDFMiner actualizada en Python?

Publicado el 2024-11-09

Navegar:123

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

Extracción de texto de archivos PDF con PDFMiner en Python

Cuando se trabaja con documentos PDF, extraer texto puede ser una tarea crucial. PDFMiner, una biblioteca de Python, simplifica este proceso y permite a los desarrolladores analizar y extraer texto de archivos PDF.

API de PDFMiner actualizada y ejemplos obsoletos

Las actualizaciones recientes de PDFMiner introdujo cambios en su API, dejando obsoletos muchos ejemplos existentes. La transición a la última versión puede dejar a los desarrolladores perdidos, sin saber cómo realizar tareas básicas como la extracción de texto.

Ejemplo de implementación

Para abordar este problema, exploremos una solución funcional ejemplo que demuestra cómo extraer texto de un archivo PDF usando la biblioteca PDFMiner actual:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

Este código proporciona un enfoque integral para la extracción de texto, que cubre todos los pasos necesarios. La función convert_pdf_to_txt toma una ruta de archivo como entrada y maneja el proceso de abrir el archivo, inicializar el analizador de documentos y convertir el contenido de la página en una cadena de texto.

Este ejemplo ilustra la sintaxis actualizada de PDFMiner, eliminando la necesidad de código obsoleto. Ha sido probado y validado minuciosamente para su uso con la última versión de PDFMiner.

Declaración de liberación Este artículo se reimprime en: 1729146198 Si hay alguna infracción, comuníquese con [email protected] para eliminarla.

Último tutorial Más>

CSS Análisis de lenguaje fuertemente escrito
Una de las formas en que puede clasificar un lenguaje de programación es por lo fuertemente tipado que es. Aquí, "escrito" significa si las...

Programación Publicado el 2025-07-09
Async void vs. async tarea en ASP.NET: ¿Por qué el método de async void a veces arroja excepciones?
comprensión de la distinción entre la tarea async void y async en asp.net en aplicaciones ASP.NET, la programación asíncrona juega un papel cr...

Programación Publicado el 2025-07-09
PHP Future: adaptación e innovación
El futuro de PHP se logrará adaptándose a nuevas tendencias tecnológicas e introduciendo características innovadoras: 1) adaptarse a las arquitectura...

Programación Publicado el 2025-07-09
¿Pueden los parámetros de la plantilla en la función consteval C ++ 20 depender de los parámetros de la función?
ConsteVal Functions and Template Parámetros Dependientes de los argumentos de función en C 17, un parámetro de plantilla no puede depender de ...

Programación Publicado el 2025-07-09
El error del compilador "usr/bin/ld: no se puede encontrar -l" solución
Error encontrado: "usr/bin/ld: no puedo encontrar -l " -l usr/bin/ld: cannot find -l<nameOfTheLibrary> agregando rutas de ...

Programación Publicado el 2025-07-09
¿Cómo puedo unir tablas de bases de datos con diferentes números de columnas?
tablas combinadas con diferentes columnas ]] puede encontrar desafíos al intentar fusionar las tablas de la base de datos con diferentes column...

Programación Publicado el 2025-07-09
¿Cómo cargar archivos con parámetros adicionales utilizando java.net.urlconnection y codificación multipart/formulario?
de carga de archivos con solicitudes http para cargar archivos a un servidor HTTP al tiempo que envía parámetros adicionales, java.net.urlconn...

Programación Publicado el 2025-07-09
Spark DataFrame Consejos para agregar columnas constantes
creando una columna constante en un Spark DataFrame agregando una columna constante a un Spark DataFrame con un valor arbitrario que se aplica...

Programación Publicado el 2025-07-09
¿Necesito eliminar explícitamente las asignaciones de montón en C ++ antes de la salida del programa?
deleción explícita en c a pesar de la salida del programa cuando trabajan con la asignación de memoria dinámica en c, los desarrolladores a me...

Programación Publicado el 2025-07-09
¿Cómo limitar el rango de desplazamiento de un elemento dentro de un elemento principal de tamaño dinámico?
implementando límites de altura de CSS para los elementos de desplazamiento vertical en una interfaz interactiva, controlar el comportamiento ...

Programación Publicado el 2025-07-09
¿Cómo puedo manejar múltiples cargas de archivos con FormData ()?
Manejo de múltiples cargas de archivo con formdata () Cuando se trabaja con entradas de archivos, a menudo es necesario manejar múltiples carg...

Programación Publicado el 2025-07-09
¿Cómo puedo personalizar las optimizaciones de compilación en el compilador GO?
Personalización de optimizaciones de compilación En compilador GO El proceso de compilación predeterminado en Go sigue una estrategia de optim...

Programación Publicado el 2025-07-09
$¿Por qué recibo un error de \ "clase \ 'Ziparchive \' no encontrado \" después de instalar Archive_Zip en mi servidor Linux?$
¿Por qué recibo un error de \ "clase \ 'Ziparchive \' no encontrado \" después de instalar Archive_Zip en mi servidor Linux?
class 'Ziparchive' no encontrado Error al instalar Archive_Zip en Linux Server Sytom: cuando intentan ejecutar un script que utiliza...

Programación Publicado el 2025-07-09
¿Cómo los map.entry de Java y simplificando la gestión de pares de valores clave?
una colección integral para pares de valor: Introducción de Java Map.entry y SimpleEntry en Java, al definir una colección donde cada elemento...

Programación Publicado el 2025-07-09
¿Cómo resolver las discrepancias de la ruta del módulo en el mod utilizando la Directiva Reemplazar?
Superación del módulo Discrepancia en el mod Al utilizar el mod, es posible encontrar un conflicto en el que un paquete de terceros importe ot...

Programación Publicado el 2025-07-09

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo