Comment lire et extraire le contenu de fichiers dans une archive Zip à l'aide de Java et Apache Tika
Réaliser la tâche de lecture et d'extraction de contenu de Les fichiers dans une archive zip utilisant Java et Apache Tika impliquent quelques étapes clés.
1. Initialiser l'entrée
Commencez par créer un flux d'entrée à partir du fichier à traiter :
InputStream input = new FileInputStream(file);
2. Parse Zip Archive
Créez un ZipInputStream pour analyser l'archive zip et obtenir des ZipEntries individuelles :
ZipInputStream zip = new ZipInputStream(input);
3. Extraire le contenu en fonction du type de fichier
Parcourir les entrées Zip, en identifiant celles dont les types de fichiers sont pris en charge (par exemple, .txt, .pdf, .docx) :
while (entry != null) {
if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
// Process the file
}
entry = zip.getNextEntry();
}
4. Analyser le contenu à l'aide d'Apache Tika
Utilisez Apache Tika pour analyser le contenu des fichiers identifiés :
BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());
5. Extraire le contenu textuel
Convertir le contenu analysé en texte brut pour un traitement ultérieur :
System.out.println("Apache Tika - Converted input string : " textHandler.toString());
Conclusion
En suivant ces étapes, vous pouvez lire et extraire efficacement le contenu de plusieurs fichiers dans une archive zip à l'aide de Java et Apache Tika. Cette fonctionnalité est particulièrement utile pour traiter des archives contenant des données textuelles ou documentaires.
Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.
Copyright© 2022 湘ICP备2022001581号-3