«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > программирование > Как извлечь текст из PDF-файлов с помощью обновленного API PDFMiner в Python?

Как извлечь текст из PDF-файлов с помощью обновленного API PDFMiner в Python?

Опубликовано 9 ноября 2024 г.
Просматривать:954

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

Извлечение текста из PDF-файлов с помощью PDFMiner в Python

При работе с PDF-документами извлечение текста может оказаться важной задачей. PDFMiner, библиотека Python, упрощает этот процесс, позволяя разработчикам анализировать и извлекать текст из PDF-файлов.

Обновленный API PDFMiner и устаревшие примеры

Недавние обновления PDFMiner внесла изменения в свой API, в результате чего многие существующие примеры стали устаревшими. Переход на последнюю версию может привести к тому, что разработчики потеряются, не зная, как выполнять базовые задачи, такие как извлечение текста.

Пример реализации

Чтобы решить эту проблему, давайте рассмотрим рабочий пример, демонстрирующий, как извлечь текст из PDF-файла с помощью текущей библиотеки PDFMiner:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

Этот код обеспечивает комплексный подход к извлечению текста, охватывающий все необходимые шаги. Функция Convert_pdf_to_txt принимает путь к файлу в качестве входных данных и обрабатывает процесс открытия файла, инициализации анализатора документа и преобразования содержимого страницы в текстовую строку.

Этот пример иллюстрирует обновленный синтаксис PDFMiner, устраняющий необходимость в устаревший код. Он был тщательно протестирован и проверен для использования с последней версией PDFMiner.

Заявление о выпуске Эта статья перепечатана по адресу: 1729146198. В случае каких-либо нарушений, пожалуйста, свяжитесь с [email protected], чтобы удалить ее.
Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3