Extraire du texte à partir de fichiers PDF avec PDFMiner en Python
Lorsque vous travaillez avec des documents PDF, l'extraction de texte peut être une tâche cruciale. PDFMiner, une bibliothèque Python, simplifie ce processus, permettant aux développeurs d'analyser et d'extraire du texte à partir de fichiers PDF.
API PDFMiner mise à jour et exemples obsolètes
Les mises à jour récentes de PDFMiner ont a introduit des modifications dans son API, rendant obsolètes de nombreux exemples existants. La transition vers la dernière version peut laisser les développeurs perdus, ne sachant pas comment effectuer des tâches de base telles que l'extraction de texte.
Exemple de mise en œuvre
Pour résoudre ce problème, explorons un modèle fonctionnel exemple qui montre comment extraire le texte d'un fichier PDF à l'aide de la bibliothèque PDFMiner actuelle :
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text
Ce code fournit une approche complète de l'extraction de texte, couvrant toutes les étapes nécessaires. La fonction convert_pdf_to_txt prend un chemin de fichier en entrée et gère le processus d'ouverture du fichier, d'initialisation de l'analyseur de document et de conversion du contenu de la page en chaîne de texte.
Cet exemple illustre la syntaxe PDFMiner mise à jour, éliminant le besoin de code obsolète. Il a été minutieusement testé et validé pour une utilisation avec la dernière version de PDFMiner.
Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.
Copyright© 2022 湘ICP备2022001581号-3