”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 如何使用 Java 和 Apache Tika 从 Zip 存档中的文件中提取内容?

如何使用 Java 和 Apache Tika 从 Zip 存档中的文件中提取内容?

发布于2024-11-08
浏览:688

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

如何使用 Java 和 Apache Tika 从 Zip 存档中的文件中读取和提取内容

实现从 Zip 存档中读取和提取内容的任务使用 Java 和 Apache Tika 压缩 zip 存档中的文件涉及几个关键步骤。

1。初始化输入

首先从要处理的文件创建输入流:

InputStream input = new FileInputStream(file);

2.解析 Zip Archive

创建 ZipInputStream 来解析 zip 存档并获取各个 ZipEntries:

ZipInputStream zip = new ZipInputStream(input);

3.根据文件类型提取内容

迭代 ZipEntries,识别具有支持的文件类型(例如 .txt、.pdf、.docx)的文件类型:

while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}

4.使用 Apache Tika 解析内容

使用 Apache Tika 解析所识别文件的内容:

BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());

5.提取文本内容

将解析的内容转换为纯文本以进行进一步处理:

System.out.println("Apache Tika - Converted input string : "   textHandler.toString());

结论

通过执行以下步骤,您可以使用 Java 和 Apache Tika 高效地从 zip 存档中的多个文件中读取和提取内容。此功能对于处理包含文本或基于文档的数据的档案特别有用。

最新教程 更多>
  • 使用 PHP 和 JavaScript 将网页下载为 PDF
    使用 PHP 和 JavaScript 将网页下载为 PDF
    在 PHP 中将 HTML 转换为 PDF 很容易。让我们更进一步,使用 PHP 和 JavaScript 将网页转换为 PDF 文件。 为此,您需要安装 Composer 和 Node。 安装完这些东西后,您需要使用 Composer 安装 Dompdf,并使用 npm(Node 包管理器)安装...
    编程 发布于2024-11-08
  • 4 年内构建 AI 代理的顶级框架
    4 年内构建 AI 代理的顶级框架
    Hola,我是 Nomadev!如果您像我一样,您可能已经注意到人工智能代理正在席卷世界。说真的,人工智能代理不仅仅是炒作,它们已经在为智能系统提供动力、自动化任务并代表企业做出决策。我一直在深入研究这个领域,相信我,未来是由代理驱动的。 现在,如果您想成为这场革命的一部分并构建自己的人工智能代理...
    编程 发布于2024-11-08
  • 每个开发人员都应该了解的基本 Express 请求属性
    每个开发人员都应该了解的基本 Express 请求属性
    在项目后端工作时,处理请求和响应至关重要。有效管理这些请求对于客户端和服务器之间的顺利通信至关重要。以下是每个开发人员都应该熟悉的一些常见且重要的请求属性。 1. 请求ip Express.js 中的 req.ip 是请求对象的一个​​属性,它提供发出请求的客户端的 IP 地址。它返...
    编程 发布于2024-11-08
  • 如何解决 Doctrine 左连接期间的“Expected Doctrine\\ORM\\Query\\Lexer::T_WITH, got 'ON'\”错误?
    如何解决 Doctrine 左连接期间的“Expected Doctrine\\ORM\\Query\\Lexer::T_WITH, got 'ON'\”错误?
    如何在 Doctrine 中执行左连接当使用复杂的数据模型时,有必要通过建立多个表之间的关系来从多个表中检索数据。左连接允许您从一个表中获取所有行,并且仅从另一表中获取匹配的行。遇到的问题在 Doctrine 中尝试左连接时可能出现的常见错误正在接收以下语法错误:[Syntax Error] lin...
    编程 发布于2024-11-08
  • 使用 Java/ColdFusion/CFML 比较语言检测库(和 API)
    使用 Java/ColdFusion/CFML 比较语言检测库(和 API)
    语言检测是我们在过去的项目中需要的一个功能。 我在 2020 年写了一篇关于 Optimaize Language Detector java 库的 kju2 fork 的使用的文章。 Optimaize 库自 2015 年以来就没有更新过,kju2 分支于 2023 年 4 月 16 日被置于只...
    编程 发布于2024-11-08
  • 如何在 CSS 中在背景上创建曲线?
    如何在 CSS 中在背景上创建曲线?
    在背景上创建曲线在网页开发领域,设计师经常会遇到出于审美目的创建曲线的需要。其中一个场景是将剪切曲线放置在背景顶部,而不是右侧。要实现这一点,需要修改现有的 CSS 代码来调整曲线的位置和形状。操作方法如下:调整伪元素位置:更改伪元素的位置(.box:之前和 .box:after) 到底部:100%...
    编程 发布于2024-11-08
  • 捕获 Django 应用程序中的错误的最佳方法
    捕获 Django 应用程序中的错误的最佳方法
    在 Web 开发的世界中,错误是整个过程中不可避免的一部分。但对于 Django(最流行的 Python Web 框架之一)来说,拥有可靠的错误捕获策略可以在流畅的用户体验和令人沮丧的用户体验之间产生巨大的差异。 作为开发人员,我们经常发现自己不断地与难以捉摸的错误和意外行为作斗争。无论您是构建小...
    编程 发布于2024-11-08
  • 如何将 GORM 字段注释集成到 Protobuf 定义中?
    如何将 GORM 字段注释集成到 Protobuf 定义中?
    将字段注释集成到 Protobuf 定义中寻求在其 protobuf 定义中使用 GORM 提供的字段注释的开发人员可能会因缺少字段注释而遇到挑战Protobuf 3 语法中的本机日期时间类型。为了解决这个问题,可以使用后处理脚本来使用所需的 GORM 注释来增强生成的原型文件。例如,给定以下 pr...
    编程 发布于2024-11-08
  • 开发人员如何构建实时 Web 应用程序?
    开发人员如何构建实时 Web 应用程序?
    在不断发展的技术世界中,实时 Web 应用程序已成为寻求增强用户参与度和简化沟通的企业的强大解决方案。这些应用程序提供即时更新和交互,使其在消息传递、游戏和电子商务等领域至关重要。对于开发人员,特别是那些在澳大利亚开发人员来说,了解构建实时应用程序的细微差别至关重要。本文将探讨创建实时 Web 应用...
    编程 发布于2024-11-08
  • 使用 SAM 框架构建 Go Serverless REST API 并部署到 AWS (Amazon Linux untime)
    使用 SAM 框架构建 Go Serverless REST API 并部署到 AWS (Amazon Linux untime)
    为什么还要另一个 Go 教程 AWS 最近已弃用多项服务和运行时。正如我们所看到的,随着我们喜爱的 CodeCommit 和其他关键服务的终止,AWS Lambda 函数不再支持 Go1.x。 如果您尝试部署大部分过时的教程,您可能会遇到如下错误: Resource creatio...
    编程 发布于2024-11-08
  • C 中的不相交联合
    C 中的不相交联合
    目前还不清楚如何在 C: 中表达此 Haskell 类型 data Tree = Leaf Int | Inner Tree Tree 与 Haskell 和 Rust 等语言不同,C 缺乏对的内置支持 不相交联合。然而,如果我们愿意做一些额外的输入,它确实提供了代表它们所需的所有成分。 首先要认识...
    编程 发布于2024-11-08
  • 社交媒体上的图文帖子有何作用?
    社交媒体上的图文帖子有何作用?
    图形帖子通过提高用户参与度和强化品牌形象在社交媒体营销中发挥着至关重要的作用。在 Instagram、LinkedIn 和 Facebook 等快节奏的社交平台中,用户滚动浏览大量内容,引人注目的视觉效果可以让您的帖子脱颖而出。图形快速有效地传达信息,使其成为与受众沟通的强大工具。 ...
    编程 发布于2024-11-08
  • 如何使用 javac、Ant 或 Maven 递归编译多个 Java 文件?
    如何使用 javac、Ant 或 Maven 递归编译多个 Java 文件?
    如何使用 javac 递归编译所有 Java 文件为每个包使用单独的 shell 命令编译分布在多个包中的大量 Java 文件可能会很乏味包裹。相反,请考虑使用以下方法之一来简化编译。方法 1:使用 @source生成一个文本文件(例如,sources.txt) txt),其中列出了要编译的所有 J...
    编程 发布于2024-11-08
  • 如何使用 Python 在文件的特定位置插入一行?
    如何使用 Python 在文件的特定位置插入一行?
    在Python中的文件中间插入一行在文件中的指定位置插入一行,同时保持文件的完整性现有内容可以使用 Python 的文件处理功能来实现。要在文件中的索引 x 处插入一行,请按照下列步骤操作:打开文件进行读取。使用 readlines() 方法将整个文件读入行列表。使用 insert() 方法在指定索...
    编程 发布于2024-11-08
  • ## 当方法具有指针接收器时,我什么时候应该避免在 Go 中复制实例?
    ## 当方法具有指针接收器时,我什么时候应该避免在 Go 中复制实例?
    复制实例时指针接收器的重要性操作数据时,理解按引用或按值传递值的细微差别至关重要。在 Go 中,方法可以使用值接收器或指针接收器来定义,理解这种选择的含义至关重要,尤其是在复制实例时。值接收器具有值接收器的方法对它们接收到的值的副本进行操作。方法内所做的任何修改都不会影响原始值。这确保了在复制的实例...
    编程 发布于2024-11-08

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3