"Si un ouvrier veut bien faire son travail, il doit d'abord affûter ses outils." - Confucius, "Les Entretiens de Confucius. Lu Linggong"
Page de garde > La programmation > Comment extraire du texte de fichiers PDF à l'aide de l'API PDFMiner mise à jour en Python ?

Comment extraire du texte de fichiers PDF à l'aide de l'API PDFMiner mise à jour en Python ?

Publié le 2024-11-09
Parcourir:417

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

Extraire du texte à partir de fichiers PDF avec PDFMiner en Python

Lorsque vous travaillez avec des documents PDF, l'extraction de texte peut être une tâche cruciale. PDFMiner, une bibliothèque Python, simplifie ce processus, permettant aux développeurs d'analyser et d'extraire du texte à partir de fichiers PDF.

API PDFMiner mise à jour et exemples obsolètes

Les mises à jour récentes de PDFMiner ont a introduit des modifications dans son API, rendant obsolètes de nombreux exemples existants. La transition vers la dernière version peut laisser les développeurs perdus, ne sachant pas comment effectuer des tâches de base telles que l'extraction de texte.

Exemple de mise en œuvre

Pour résoudre ce problème, explorons un modèle fonctionnel exemple qui montre comment extraire le texte d'un fichier PDF à l'aide de la bibliothèque PDFMiner actuelle :

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

Ce code fournit une approche complète de l'extraction de texte, couvrant toutes les étapes nécessaires. La fonction convert_pdf_to_txt prend un chemin de fichier en entrée et gère le processus d'ouverture du fichier, d'initialisation de l'analyseur de document et de conversion du contenu de la page en chaîne de texte.

Cet exemple illustre la syntaxe PDFMiner mise à jour, éliminant le besoin de code obsolète. Il a été minutieusement testé et validé pour une utilisation avec la dernière version de PDFMiner.

Déclaration de sortie Cet article est réimprimé à l'adresse : 1729146198. En cas d'infraction, veuillez contacter [email protected] pour le supprimer.
Dernier tutoriel Plus>

Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.

Copyright© 2022 湘ICP备2022001581号-3