Как извлечь текст из PDF-файлов с помощью обновленного API PDFMiner в Python?

титульная страница > программирование > Как извлечь текст из PDF-файлов с помощью обновленного API PDFMiner в Python?

Как извлечь текст из PDF-файлов с помощью обновленного API PDFMiner в Python?

Опубликовано 9 ноября 2024 г.

Просматривать:954

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

Извлечение текста из PDF-файлов с помощью PDFMiner в Python

При работе с PDF-документами извлечение текста может оказаться важной задачей. PDFMiner, библиотека Python, упрощает этот процесс, позволяя разработчикам анализировать и извлекать текст из PDF-файлов.

Обновленный API PDFMiner и устаревшие примеры

Недавние обновления PDFMiner внесла изменения в свой API, в результате чего многие существующие примеры стали устаревшими. Переход на последнюю версию может привести к тому, что разработчики потеряются, не зная, как выполнять базовые задачи, такие как извлечение текста.

Пример реализации

Чтобы решить эту проблему, давайте рассмотрим рабочий пример, демонстрирующий, как извлечь текст из PDF-файла с помощью текущей библиотеки PDFMiner:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

Этот код обеспечивает комплексный подход к извлечению текста, охватывающий все необходимые шаги. Функция Convert_pdf_to_txt принимает путь к файлу в качестве входных данных и обрабатывает процесс открытия файла, инициализации анализатора документа и преобразования содержимого страницы в текстовую строку.

Этот пример иллюстрирует обновленный синтаксис PDFMiner, устраняющий необходимость в устаревший код. Он был тщательно протестирован и проверен для использования с последней версией PDFMiner.

Заявление о выпуске Эта статья перепечатана по адресу: 1729146198. В случае каких-либо нарушений, пожалуйста, свяжитесь с [email protected], чтобы удалить ее.

Последний учебник Более>

Почему Microsoft Visual C ++ не может правильно реализовать двухфазной экземпляры?
загадка «Сломанная» двухфазное матричное экземпляры в Microsoft Visual C Задача задачи: пользователи обычно выражают обеспокоенность Microso...

программирование Опубликовано в 2025-03-12
UTF-8 против Латинской 1: Секрет кодирования персонажа!
различение UTF-8 и latin1 При работе с кодированием появляется два заметных варианта: UTF-8 и latin1. Среди их приложений возникает фундамента...

программирование Опубликовано в 2025-03-12
Множество
методы являются FNS, которые можно вызвать на Objects ] Массивы являются объектами, следовательно, они также имеют методы в JS. ] ] Срез (...

программирование Опубликовано в 2025-03-12
Как я могу эффективно заменить несколько подстроков в строке Java?
заменить несколько подстроков в строку эффективно в Java , когда сталкивается с необходимостью заменить несколько подстроков в строке, это зама...

программирование Опубликовано в 2025-03-12
Часть SQL -инъекции: подробное объяснение передовых методов инъекции SQL
Автор: Trix Cyrus ] Waymap Pentesting Tool: нажмите здесь ] TrixSec GitHub: нажмите здесь Trixsec Telegram: нажмите здесь ] ] Advance...

программирование Опубликовано в 2025-03-12
Как мы можем обеспечить загрузку файлов от вредоносного контента?
Запасы безопасности с загрузкой файлов Загрузка файлов на сервер может представить значительные риски безопасности из -за потенциально злонаме...

программирование Опубликовано в 2025-03-12
Как удалить разрывы линии из строк, используя регулярные выражения в JavaScript?
удаление разрывов строки из строк В этом сценарии кода цель состоит в том, чтобы устранить разрывы строки из текстовой строки, считывающейся из ...

программирование Опубликовано в 2025-03-12
Почему выполнение JavaScript прекращается при использовании кнопки Firefox Back?
Проблема истории навигации: Javascript перестает выполнять после использования кнопки Firefox Back пользователи Firefox могут столкнуться с пр...

программирование Опубликовано в 2025-03-12
Как правильно вставить Blobs (изображения) в MySQL с помощью PHP?
вставьте Blobs в базы данных MySQL с PHP При попытке сохранить изображение в базе данных MySQL, вы можете столкнуться с проблемой. Это руково...

программирование Опубликовано в 2025-03-12
Могу ли я перенести свой шифрование с McRypt в OpenSSL и расшифровывает данные, заполненные McRypt, используя OpenSSL?
Обновление моей библиотеки шифрования с McRypt до OpenSSL Могу ли я обновить свою библиотеку шифрования с McRypt до OpenSSL? В OpenSSL можно л...

программирование Опубликовано в 2025-03-12
Существует ли разница в производительности между использованием зала и итератора для сбора сбора в Java?
для каждого цикла против итератора: эффективность в сборе Traversal введение при переселении коллекции в Java, выборе между использованием...

программирование Опубликовано в 2025-03-12
Как проверить, есть ли у объекта конкретный атрибут в Python?
Метод для определения атрибута объекта Этот запрос ищет метод для проверки присутствия конкретного атрибута в объекте. Рассмотрим следующий пр...

программирование Опубликовано в 2025-03-12
Подробное объяснение метода сбора случайных элементов Java Hashset/LinkedHashset
Поиск случайного элемента в наборе в программировании может быть полезно выбирать случайный элемент из коллекции, такой как набор. Java предоста...

программирование Опубликовано в 2025-03-12
Когда CSS приписывает отдачу от пикселей (PX) без единиц?
запасной для атрибутов CSS без единиц: примерное исследование CSS -атрибуты часто требуют единиц (например, PX, EM, %) для определения их знач...

программирование Опубликовано в 2025-03-12
Каковы были ограничения на использование current_timestamp с столбцами TimeStamp в MySQL до версии 5.6.5?
Restrictions on TIMESTAMP Columns with CURRENT_TIMESTAMP in DEFAULT or ON UPDATE Clauses in MySQL Versions Prior to 5.6.5Historically, in MySQL versio...

программирование Опубликовано в 2025-03-12