Comment extraire du texte de fichiers PDF à l'aide de l'API PDFMiner mise à jour en Python ?

Page de garde > La programmation > Comment extraire du texte de fichiers PDF à l'aide de l'API PDFMiner mise à jour en Python ?

Comment extraire du texte de fichiers PDF à l'aide de l'API PDFMiner mise à jour en Python ?

Publié le 2024-11-09

Parcourir:734

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

Extraire du texte à partir de fichiers PDF avec PDFMiner en Python

Lorsque vous travaillez avec des documents PDF, l'extraction de texte peut être une tâche cruciale. PDFMiner, une bibliothèque Python, simplifie ce processus, permettant aux développeurs d'analyser et d'extraire du texte à partir de fichiers PDF.

API PDFMiner mise à jour et exemples obsolètes

Les mises à jour récentes de PDFMiner ont a introduit des modifications dans son API, rendant obsolètes de nombreux exemples existants. La transition vers la dernière version peut laisser les développeurs perdus, ne sachant pas comment effectuer des tâches de base telles que l'extraction de texte.

Exemple de mise en œuvre

Pour résoudre ce problème, explorons un modèle fonctionnel exemple qui montre comment extraire le texte d'un fichier PDF à l'aide de la bibliothèque PDFMiner actuelle :

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

Ce code fournit une approche complète de l'extraction de texte, couvrant toutes les étapes nécessaires. La fonction convert_pdf_to_txt prend un chemin de fichier en entrée et gère le processus d'ouverture du fichier, d'initialisation de l'analyseur de document et de conversion du contenu de la page en chaîne de texte.

Cet exemple illustre la syntaxe PDFMiner mise à jour, éliminant le besoin de code obsolète. Il a été minutieusement testé et validé pour une utilisation avec la dernière version de PDFMiner.

Déclaration de sortie Cet article est réimprimé à l'adresse : 1729146198. En cas d'infraction, veuillez contacter [email protected] pour le supprimer.

Dernier tutoriel Plus>

Pourquoi DateTime :: Modify de PHP («+ 1 mois») produit-il des résultats inattendus?
Modification des mois avec PHP DateTime: Découvrir le comportement prévu Lorsque vous travaillez avec la classe DateTime de Php, l'ajout o...

La programmation Publié le 2025-07-17
La méthode de la base de données MySQL n'est pas nécessaire pour vider la même instance
Copie d'une base de données mysql sur la même instance sans vider copie une base de données sur la même instance mysql peut être faite san...

La programmation Publié le 2025-07-17
Eval () vs.st.literal_eval (): Quelle fonction Python est plus sûre pour la saisie de l'utilisateur?
pesant eval () et ast.literal_eval () dans Python Security Lors de la gestion de l'entrée de l'utilisateur, il est impératif de priori...

La programmation Publié le 2025-07-17
Le faux réveil se produira-t-il vraiment en Java?
des réveils parasites en java: réalité ou mythe? Le concept de faux réveils dans la synchronisation de Java a fait l'objet de discussion dep...

La programmation Publié le 2025-07-16
Pourquoi les comparaisons booléennes «Flake8» sont-elles dans les clauses de filtre Sqlalchemy?
flake8 Flagging Boolean Comparison in Filter ClauseWhen attempting to filter query results based on a boolean comparison in SQL, developers may encoun...

La programmation Publié le 2025-07-16
Comment limiter la plage de défilement d'un élément dans un élément parent de taille dynamique?
Implémentation de limites de hauteur CSS pour les éléments de défilement vertical dans une interface interactive, le contrôle du comportement ...

La programmation Publié le 2025-07-16
Pourquoi une grille avec des colonnes 100% grid-template s'étend-elle au-delà du corps lors de l'utilisation du positionnement fixe?
La grille dépasse le corps avec 100% grid-template-columns Pourquoi une grille d'affichage avec 100% dans les colonnes de la grille s'...

La programmation Publié le 2025-07-16
Comment surmonter les restrictions de redéfinition de la fonction de PHP?
surmonter les limitations de redéfinition de la fonction de Php dans php, définir une fonction avec le même nom plusieurs fois est un non. Ten...

La programmation Publié le 2025-07-16
L'erreur du compilateur "USR / bin / ld: ne peut pas trouver -l" solution
Erreur rencontrée: "usr / bin / ld: impossible de trouver -l " lorsque -l usr/bin/ld: cannot find -l<nameOfTheLibrary> Ajo...

La programmation Publié le 2025-07-16
Comment puis-je créer efficacement des dictionnaires en utilisant la compréhension Python?
Python Dictionary Comprehension Dans Python, les compréhensions du dictionnaire offrent un moyen concis de générer de nouveaux dictionnaires. Bi...

La programmation Publié le 2025-07-16
$Pourquoi est-ce que je reçois une erreur \ "class \ 'ziparchive \' non trouvée \" après avoir installé archive_zip sur mon serveur Linux?$
Pourquoi est-ce que je reçois une erreur \ "class \ 'ziparchive \' non trouvée \" après avoir installé archive_zip sur mon serveur Linux?
classe 'ziparchive' introuvable erreur lors de l'installation d'archive_zip sur le serveur Linux symptôme: Lorsque vous tent...

La programmation Publié le 2025-07-16
Comment Java's Map.Entry et SimpleEntry simplifient la gestion des paires de valeurs clés?
Une collection complète pour les paires de valeur: introduisant la carte de Java.Entry et SimpleEntry dans Java, lors de la définition d'u...

La programmation Publié le 2025-07-16
Comment pouvez-vous utiliser des données de groupe par pour pivoter dans MySQL?
Pivoting des résultats de la requête en utilisant le groupe mysql par Dans une base de données relationnelle, les données pivotant se réfèrent...

La programmation Publié le 2025-07-16
PHP Future: adaptation et innovation
L'avenir de PHP sera réalisé en s'adaptant aux nouvelles tendances technologiques et en introduisant des fonctionnalités innovantes: 1) s'...

La programmation Publié le 2025-07-16
Analyse du langage fortement tapé CSS
L'une des façons de classer un langage de programmation est de la force ou de la manière faible. Ici, «tapé» signifie si les variables sont connu...

La programmation Publié le 2025-07-16

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article