"Se um trabalhador quiser fazer bem o seu trabalho, ele deve primeiro afiar suas ferramentas." - Confúcio, "Os Analectos de Confúcio. Lu Linggong"
Primeira página > Programação > Como extrair conteúdo de arquivos em um arquivo Zip usando Java e Apache Tika?

Como extrair conteúdo de arquivos em um arquivo Zip usando Java e Apache Tika?

Publicado em 2024-11-08
Navegar:954

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Como ler e extrair conteúdo de arquivos em um arquivo Zip usando Java e Apache Tika

Realizando a tarefa de ler e extrair conteúdo de arquivos dentro de um arquivo zip usando Java e Apache Tika envolve algumas etapas importantes.

1. Inicializar Input

Comece criando um fluxo de entrada do arquivo a ser processado:

InputStream input = new FileInputStream(file);

2. Analisar arquivo Zip

Crie um ZipInputStream para analisar o arquivo zip e obter ZipEntries individuais:

ZipInputStream zip = new ZipInputStream(input);

3. Extraia o conteúdo com base no tipo de arquivo

Itere pelos ZipEntries, identificando aqueles com tipos de arquivo suportados (por exemplo, .txt, .pdf, .docx):

while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}

4. Analisar conteúdo usando Apache Tika

Use Apache Tika para analisar o conteúdo dos arquivos identificados:

BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());

5. Extraia conteúdo textual

Converta o conteúdo analisado em texto simples para processamento posterior:

System.out.println("Apache Tika - Converted input string : "   textHandler.toString());

Conclusão

Seguindo essas etapas, você pode ler e extrair com eficiência o conteúdo de vários arquivos em um arquivo zip usando Java e Apache Tika. Esta funcionalidade é particularmente útil para processar arquivos contendo dados textuais ou baseados em documentos.

Tutorial mais recente Mais>

Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.

Copyright© 2022 湘ICP备2022001581号-3