「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > Java と Apache Tika を使用して ZIP アーカイブ内のファイルからコンテンツを抽出する方法

Java と Apache Tika を使用して ZIP アーカイブ内のファイルからコンテンツを抽出する方法

2024 年 11 月 8 日に公開
ブラウズ:921

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Java と Apache を使用して Zip アーカイブ内のファイルからコンテンツを読み取って抽出する方法 Tika

コンテンツを読み取って抽出するタスクの実行Java と Apache Tika を使用して zip アーカイブ内のファイルを作成するには、いくつかの重要な手順が必要です。

1.入力の初期化

まず、処理対象のファイルから入力ストリームを作成します。

InputStream input = new FileInputStream(file);

2. Zip アーカイブを解析する

Zip アーカイブを解析して個々の ZipEntries を取得するための ZipInputStream を作成します:

ZipInputStream zip = new ZipInputStream(input);

3.ファイル タイプに基づいてコンテンツを抽出する

ZipEntries を反復処理して、サポートされているファイル タイプ (.txt、.pdf、.docx など) を持つものを特定します:

while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}

4. Apache Tika を使用したコンテンツの解析

Apache Tika を使用して、特定されたファイルのコンテンツを解析します。

BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());

5.テキスト コンテンツの抽出

さらなる処理のために解析されたコンテンツをプレーン テキストに変換します:

System.out.println("Apache Tika - Converted input string : "   textHandler.toString());

結論

これらに従ってくださいこの手順を実行すると、Java と Apache Tika を使用して、zip アーカイブ内の複数のファイルからコンテンツを効率的に読み取り、抽出できます。この機能は、テキストまたはドキュメントベースのデータを含むアーカイブを処理する場合に特に役立ちます。

最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3