如何在 Python 中使用更新的 PDFMiner API 从 PDF 文件中提取文本？

首页 > 编程 > 如何在 Python 中使用更新的 PDFMiner API 从 PDF 文件中提取文本？

如何在 Python 中使用更新的 PDFMiner API 从 PDF 文件中提取文本？

发布于2024-11-09

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

在 Python 中使用 PDFMiner 从 PDF 文件中提取文本

处理 PDF 文档时，提取文本可能是一项关键任务。 PDFMiner 是一个 Python 库，简化了这个过程，使开发人员能够从 PDF 文件中解析和提取文本。

更新了 PDFMiner API 和过时的示例

PDFMiner 的最新更新有对其 API 进行了更改，使许多现有示例变得过时。过渡到最新版本可能会让开发人员迷失方向，不确定如何执行文本提取等基本任务。

示例实现

为了解决这个问题，让我们探索一个可行的方法演示如何使用当前 PDFMiner 库从 PDF 文件中提取文本的示例：

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

此代码提供了一种全面的文本提取方法，涵盖了所有必要的步骤。 Convert_pdf_to_txt 函数将文件路径作为输入，并处理打开文件、初始化文档解析器以及将页面内容转换为文本字符串的过程。

此示例说明了更新的 PDFMiner 语法，无需过时的代码。它已经过彻底的测试和验证，可与最新的 PDFMiner 版本一起使用。

版本声明本文转载于：1729146198如有侵犯，请联系[email protected]删除

最新教程更多>

什么时候手动调用析构函数是合法的做法？
什么时候手动调用析构函数是合理的？手动调用析构函数表明存在缺陷的设计这一概念经常被断言。然而，这引出了一个问题：这条规则有例外吗？反例：需要手动析构函数调用的情况确实，在某些情况下有必要这样做显式调用析构函数：1.受控内存释放：当内存分配和释放独立于对象构造和销毁进行管理时，手动析构函数调用变得至关...

编程发布于2024-11-17
大批
方法是可以在对象上调用的 fns 数组是对象，因此它们在 JS 中也有方法。 slice(begin)：将数组的一部分提取到新数组中，而不改变原始数组。 let arr = ['a','b','c','d','e']; // Usecase: Extract till index p...

编程发布于2024-11-17
如何在 PHP 中组合两个关联数组，同时保留唯一 ID 并处理重复名称？
在 PHP 中组合关联数组在 PHP 中，将两个关联数组组合成一个数组是一项常见任务。考虑以下请求：问题描述：提供的代码定义了两个关联数组，$array1 和 $array2。目标是创建一个新数组 $array3，它合并两个数组中的所有键值对。此外，提供的数组具有唯一的 ID，而名称可能重合。要求...

编程发布于2024-11-17
除了“if”语句之外：还有哪些地方可以在不进行强制转换的情况下使用具有显式“bool”转换的类型？
无需强制转换即可上下文转换为 bool您的类定义了对 bool 的显式转换，使您能够在条件语句中直接使用其实例“t”。然而，这种显式转换提出了一个问题：“t”在哪里可以在不进行强制转换的情况下用作 bool？上下文转换场景C 标准指定了四种值可以根据上下文转换为的主要场景bool:语句：if、whi...

编程发布于2024-11-17
$使用 Go Module 部署 Go Cloud Functions 时如何解决“Build failed: go: parsing /models/go.mod: open /models/go.mod: no such file or directory\”错误？$
使用 Go Module 部署 Go Cloud Functions 时如何解决“Build failed: go: parsing /models/go.mod: open /models/go.mod: no such file or directory\”错误？
使用 Go 模块部署 Google Cloud Function 错误尝试使用 Go 模块在 Go 1.11 中部署 Google Cloud Function 时，开发者可能会遇到错误，“构建失败：go：解析/models/go.mod：打开/models/go.mod：没有这样的文件或目录。&q...

编程发布于2024-11-17
为什么我的 Golang `exec.Command` 返回“退出状态 1”？
如何查明Golang的exec.Command中出现“Exit Status 1”错误的原因在Golang中执行exec.Command方法时，收到“退出状态 1”错误可能会非常模糊。缺乏特定信息会阻碍有效的调试。要检索更详细的信息，请利用 Command 对象的 Stderr 属性。这是通过以下方...

编程发布于2024-11-17
如何使用“setState”更新状态中的嵌套对象？
使用 setState 更新 state.item[1] 在这种情况下，您正在尝试更新对象内的对象使用 setState 在您的状态中。要正确更新状态，您需要复制整个状态对象，修改副本，然后将状态设置为更新后的副本。以下是如何更新 state.item[1] 使用setState:// 1. Mak...

编程发布于2024-11-17
Bootstrap 4 Beta 中的列偏移发生了什么？
Bootstrap 4 Beta：列偏移的删除和恢复Bootstrap 4 在其 Beta 1 版本中引入了重大更改柱子偏移了。然而，随着 Beta 2 的后续发布，这些变化已经逆转。从 offset-md-* 到 ml-auto在 Bootstrap 4 Beta 1 中， offset-md-*...

编程发布于2024-11-17
将 PHP 连接到数据库：MySQL 初学者
在 PHP 中连接到 MySQL 数据库至关重要，步骤如下：安装 MySQL 扩展使用 mysqli_connect() 函数创建连接，参数包括主机、用户名、密码和数据库名称使用 mysqli_connect_error() 函数检查连接是否成功实战案例：获取所有用户，通过查询数据库并使用 mysq...

编程发布于2024-11-17
为什么 CSS `visibility:hidden` 无法实现悬停效果？
揭开谜团：为什么 CSS 可见性在悬停时失败CSS 可见性提供了一种操作元素可见性的便捷方法，但有时它会偶然发现意想不到的障碍。考虑这样一个场景，您定义了一个“扰流器”类来使文本最初不可见，并在鼠标悬停时显示它。尽管您有期望，文本仍然顽固地保持在隐藏状态，无视您的悬停努力。深入探讨原因这种令人困惑的...

编程发布于2024-11-17
何时在 JavaScript 中使用 parseInt() 和 Number() 进行字符串到数字的转换？
使用parseInt()和Number()将字符串转换为数字在JavaScript中将字符串转换为数字时，两个常用的函数是parseInt () 和数字 ()。虽然它们都具有相同的数值转换目的，但它们的方法和行为有所不同。parseInt()parseInt() 执行更具体的任务，称为解析。它尝试从...

编程发布于2024-11-17
项目避免不必要地使用检查异常
检查异常是 Java 中的一个强大工具，因为它们迫使程序员处理异常情况，从而提高代码可靠性。然而，过度使用可能会导致 API 难以使用。为了证明检查异常是合理的，情况必须是真正的异常并且程序员能够采取有用的操作。否则，未经检查的异常可能更合适。 Java 8 给检查异常的使用带来了额外的挑战，因为抛...

编程发布于2024-11-17
如何使用 MySQL 查找今天生日的用户？
如何使用 MySQL 识别今天生日的用户使用 MySQL 确定今天是否是用户的生日涉及查找生日匹配的所有行今天的日期。这可以通过一个简单的 MySQL 查询来实现，该查询将存储为 UNIX 时间戳的生日与今天的日期进行比较。以下 SQL 查询将获取今天有生日的所有用户： FROM USERS ...

编程发布于2024-11-17
如何修复 macOS 上 Django 中的“配置不正确：加载 MySQLdb 模块时出错”？
MySQL配置不正确：相对路径的问题在Django中运行python manage.py runserver时，可能会遇到以下错误：ImproperlyConfigured: Error loading MySQLdb module: dlopen(/Library/Python/2.7/site-...

编程发布于2024-11-17
为什么我的 PDO 更新查询无法修改 MySQL 中的特定行？
使用 PDO 进行 MySQL 更新查询当尝试使用 PDO 和 MySQL 更新数据库行时，您可能会遇到这样的情况：您的代码执行失败。本指南探讨了此错误的可能原因并提供了解决方案。错误：不正确的 UPDATE 语法您遇到的错误源于不正确的 UPDATE 语法。具体来说，您的查询正在尝试用提供的值替换...

编程发布于2024-11-17