"Si un ouvrier veut bien faire son travail, il doit d'abord affûter ses outils." - Confucius, "Les Entretiens de Confucius. Lu Linggong"
Page de garde > La programmation > Comment extraire le contenu de fichiers dans une archive Zip à l'aide de Java et Apache Tika ?

Comment extraire le contenu de fichiers dans une archive Zip à l'aide de Java et Apache Tika ?

Publié le 2024-11-08
Parcourir:571

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Comment lire et extraire le contenu de fichiers dans une archive Zip à l'aide de Java et Apache Tika

Réaliser la tâche de lecture et d'extraction de contenu de Les fichiers dans une archive zip utilisant Java et Apache Tika impliquent quelques étapes clés.

1. Initialiser l'entrée

Commencez par créer un flux d'entrée à partir du fichier à traiter :

InputStream input = new FileInputStream(file);

2. Parse Zip Archive

Créez un ZipInputStream pour analyser l'archive zip et obtenir des ZipEntries individuelles :

ZipInputStream zip = new ZipInputStream(input);

3. Extraire le contenu en fonction du type de fichier

Parcourir les entrées Zip, en identifiant celles dont les types de fichiers sont pris en charge (par exemple, .txt, .pdf, .docx) :

while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}

4. Analyser le contenu à l'aide d'Apache Tika

Utilisez Apache Tika pour analyser le contenu des fichiers identifiés :

BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());

5. Extraire le contenu textuel

Convertir le contenu analysé en texte brut pour un traitement ultérieur :

System.out.println("Apache Tika - Converted input string : "   textHandler.toString());

Conclusion

En suivant ces étapes, vous pouvez lire et extraire efficacement le contenu de plusieurs fichiers dans une archive zip à l'aide de Java et Apache Tika. Cette fonctionnalité est particulièrement utile pour traiter des archives contenant des données textuelles ou documentaires.

Dernier tutoriel Plus>

Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.

Copyright© 2022 湘ICP备2022001581号-3