«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > программирование > Как извлечь содержимое из файлов в Zip-архиве с помощью Java и Apache Tika?

Как извлечь содержимое из файлов в Zip-архиве с помощью Java и Apache Tika?

Опубликовано 8 ноября 2024 г.
Просматривать:575

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Как читать и извлекать контент из файлов в Zip-архиве с помощью Java и Apache Tika

Выполнение задачи чтения и извлечения контента из файлы в zip-архиве с использованием Java и Apache Tika включает несколько ключевых шагов.

1. Инициализировать ввод

Начните с создания входного потока из обрабатываемого файла:

InputStream input = new FileInputStream(file);

2. Разобрать Zip-архив

Создайте ZipInputStream для анализа zip-архива и получения отдельных ZipEntries:

ZipInputStream zip = new ZipInputStream(input);

3. Извлечение содержимого на основе типа файла

Перебираем записи ZipEntries, определяя те, которые имеют поддерживаемые типы файлов (например, .txt, .pdf, .docx):

while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}

4. Анализ содержимого с помощью Apache Tika

Используйте Apache Tika для анализа содержимого идентифицированных файлов:

BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());

5. Извлечь текстовое содержимое

Преобразовать проанализированное содержимое в обычный текст для дальнейшей обработки:

System.out.println("Apache Tika - Converted input string : "   textHandler.toString());

Заключение

Следуя этим шагам, вы сможете эффективно читать и извлекать контент из нескольких файлов в zip-архиве с помощью Java и Apache Tika. Эта функция особенно полезна для обработки архивов, содержащих текстовые или документальные данные.

Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3