Java と Apache Tika を使用して ZIP アーカイブ内のファイルからコンテンツを抽出する方法

表紙 > プログラミング > Java と Apache Tika を使用して ZIP アーカイブ内のファイルからコンテンツを抽出する方法

Java と Apache Tika を使用して ZIP アーカイブ内のファイルからコンテンツを抽出する方法

2024 年 11 月 8 日に公開

ブラウズ：506

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Java と Apache を使用して Zip アーカイブ内のファイルからコンテンツを読み取って抽出する方法 Tika

コンテンツを読み取って抽出するタスクの実行Java と Apache Tika を使用して zip アーカイブ内のファイルを作成するには、いくつかの重要な手順が必要です。

1.入力の初期化

まず、処理対象のファイルから入力ストリームを作成します。

InputStream input = new FileInputStream(file);

2． Zip アーカイブを解析する

Zip アーカイブを解析して個々の ZipEntries を取得するための ZipInputStream を作成します:

ZipInputStream zip = new ZipInputStream(input);

3.ファイルタイプに基づいてコンテンツを抽出する

ZipEntries を反復処理して、サポートされているファイルタイプ (.txt、.pdf、.docx など) を持つものを特定します:

while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}

4. Apache Tika を使用したコンテンツの解析

Apache Tika を使用して、特定されたファイルのコンテンツを解析します。

BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());

5.テキストコンテンツの抽出

さらなる処理のために解析されたコンテンツをプレーンテキストに変換します:

System.out.println("Apache Tika - Converted input string : "   textHandler.toString());

結論

これらに従ってくださいこの手順を実行すると、Java と Apache Tika を使用して、zip アーカイブ内の複数のファイルからコンテンツを効率的に読み取り、抽出できます。この機能は、テキストまたはドキュメントベースのデータを含むアーカイブを処理する場合に特に役立ちます。

最新のチュートリアルもっと>

java.net.urlconnectionとmultipart/form-dataエンコードを使用して追加のパラメーターを使用してファイルをアップロードする方法は？
http requests を使用してファイルをhttpサーバーにアップロードしながら、追加のパラメーター、java.net.urlconnection、およびmultipart/dataエンコーディングを送信します。プロセスの内訳は次のとおりです。エンコーディングには、要求本体を複数...

プログラミング 2025-04-16に投稿されました
$ubuntu/linuxにmysql-pythonをインストールするときに\ "mysql_configが見つかりません\"エラーを修正する方法は？$
ubuntu/linuxにmysql-pythonをインストールするときに\ "mysql_configが見つかりません\"エラーを修正する方法は？
mysql-pythonインストールエラー： "mysql_config not obst" をubuntu/linuxボックスにインストールしようとする試みを試みます。このエラーは、MySQL開発ライブラリが欠落しているために発生します。この問題を解決するには、...

プログラミング 2025-04-16に投稿されました
3つのMySQLテーブルのデータを新しいテーブルに組み合わせる方法は？
mysql：3つのテーブルのデータと列から新しいテーブルを作成する質問：人々、詳細、および分類表の表？ P。*、d.contentを年齢として選択します psとしての人々から D.Person_id = p.idのDとして詳細を結合します t.id = d.detail_idでt...

プログラミング 2025-04-16に投稿されました
テキストからHTMLタグを削除するPython効率的な方法
htmlタグをpythonで削除するために、html応答を操作することがよくあると、html応答を操作することがしばしば抽出され、形式のタグを排除します。これは、HTMLタグを効果的に剥がし、目的のプレーンテキストを残すことで実現できます。 mlstripperはHTML入力を取り、それを...

プログラミング 2025-04-16に投稿されました
$\ "while（1）vs。for（;;）：コンパイラの最適化はパフォーマンスの違いを排除しますか？\"$
\ "while（1）vs。for（;;）：コンパイラの最適化はパフォーマンスの違いを排除しますか？\"
while（1）vs。for（;;）：速度の違いはありますか？ loops？回答：では、ほとんどの最新のコンパイラでは、（1）と（;;）。コンパイラー： perl：の両方が（1）と（;;）が同じオプコードをもたらします。 1 入力 - > 2を入力します 2 NextSt...

プログラミング 2025-04-16に投稿されました
順序付けられていないコレクションにタプルの一般的なハッシュ関数を実装する方法は？
std :: unordered_mapとunordered_setコンテナは、ハスド値に基づいて効率的なルックアップと元素の挿入を提供します。ただし、カスタムハッシュ関数を定義せずにこれらのコレクションのキーとしてタプルを使用すると、予期しない動作につながる可能性があります。 st...

プログラミング 2025-04-16に投稿されました
なぜ私のCSSの背景画像が現れるのですか？
トラブルシューティング：css背景画像が表示されないチュートリアルの指示にもかかわらず、背景画像が読み込まれない問題に遭遇しました。画像とスタイルのシートは同じディレクトリに存在していますが、背景は空白の白いキャンバスのままです。画像ファイル名を囲む引用： background-ima...

プログラミング 2025-04-16に投稿されました
UTF8 MySQLテーブルでLATIN1文字をUTF8に正しく変換する方法
latin1文字をUTF8テーブル内のutf8に変換する diaCriticsのキャラクターが遭遇した問題に遭遇しました（ "Jáuòiñe"）がUTF8テーブルで存在していないために、utf8テーブルが不足しているために存在していませんでした。「mysql_se...

プログラミング 2025-04-16に投稿されました
複数のユーザータイプ（学生、教師、および管理者）をFireBaseアプリでそれぞれのアクティビティにリダイレクトする方法は？
red：複数のユーザータイプをそれぞれのアクティビティにリダイレクトする方法ログイン。現在のコードは、2つのユーザータイプのリダイレクトを正常に管理しますが、3番目のタイプ（admin）を組み込もうとするときに課題に直面します。元のスキーマは、2種類のユーザーのみに対応していました。 3...

プログラミング 2025-04-16に投稿されました
Python Metaclass作業原則とクラスの作成とカスタマイズ
Pythonのメタクラスとは？クラスがインスタンスを作成するのと同じように、Metaclassはクラスを作成します。クラスの作成プロセスを制御する層を提供し、クラスの動作と属性のカスタマイズを可能にします。これは、クラス自体がクラスキーワードを使用してクラスの「説明」から作成されたインスタン...

プログラミング 2025-04-16に投稿されました
なぜsqlalchemyフィルター条項で「flake8」はブールの比較にフラグを立てるのですか？
flake8 Flake8 Flake8フラグをフィルター節のブール比較 SQLのブール比較に基づいてクエリ結果をフィルタリングしようとすると、開発者は「==」の使用に関してFLAKE8から警告を発する可能性があります。一般に、「condがfalse」または「condではない場合：」を...

プログラミング 2025-04-16に投稿されました
Codeigniterがmysqliに切り替えた後にmysqlデータベースに接続する理由
MySQLデータベースに接続できません：エラーメッセージのトラブルシューティングは、MySQLドライバーからMySQLIドライバーのコードジニターのMySQLIドライバーに切り替えようとする場合、ユーザーは、設定を使用してデータベースサーバーを接続できます。このエラーは、誤ったPHP構...

プログラミング 2025-04-16に投稿されました
バージョン5.6.5の前にMySQLのタイムスタンプ列を使用してcurrent_timestampを使用することの制限は何でしたか？
の制限current_timestampがデフォルトまたは5.6.5より前のmysqlバージョンのcurrent_timestampの更新条項の制限は歴史的に、5.6.5以前のmysqlバージョンでは、デフォルトの列のみを制限しました。 current_timestamp句。この制限は、20...

プログラミング 2025-04-16に投稿されました
コンパクトなバイナリ形式でプライムナンバーを効率的に表現する方法は？
を作成する定数限界までの非常にコンパクトなプライムマッピングを作成します手元のタスクは、範囲を効率的に（1、n）を最小限の数字のバイナル表現に効率的に変換するアルゴリズムを考案することです。基準最適アルゴリズムは、指定された範囲のメモリフットプリントが最も低いデータ構造を生成する必要...

プログラミング 2025-04-16に投稿されました
入力：なぜ「警告：mysqli_query（）がパラメーター1がmysqliであると予想し、リソースが与えられた「エラーが発生し、それを修正する方法」出力：エラーを解決するための分析と修正「警告：mysqli_query（）パラメーターは、リソースの代わりにmysqliである必要があります」
mysqli_query（）は、パラメーター1がmysqliであることを期待しています。発生する可能性があります。このエラーは、最初のパラメーターのタイプと予想されるリソースタイプとの間の不一致を示します。これらの2つの拡張機能は交換可能ではなく、一緒に使用することはできません。 MySQ...

プログラミング 2025-04-16に投稿されました