"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?

Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 추출하는 방법은 무엇입니까?

2024-11-08에 게시됨
검색:898

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 읽고 추출하는 방법

Zip 아카이브에서 콘텐츠를 읽고 추출하는 작업 달성 Java 및 Apache Tika를 사용하여 zip 아카이브 내의 파일을 저장하려면 몇 가지 주요 단계가 필요합니다.

1. 입력 초기화

처리할 파일에서 입력 스트림을 생성하여 시작합니다.

InputStream input = new FileInputStream(file);

2. Zip 아카이브 구문 분석

Zip 아카이브를 구문 분석하고 개별 ZipEntries를 얻기 위해 ZipInputStream을 생성합니다:

ZipInputStream zip = new ZipInputStream(input);

3. 파일 형식을 기준으로 콘텐츠 추출

ZipEntries를 반복하여 지원되는 파일 형식(예: .txt, .pdf, .docx)을 식별합니다.

while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}

4. Apache Tika를 사용하여 콘텐츠 구문 분석

Apache Tika를 사용하여 식별된 파일의 콘텐츠를 구문 분석합니다.

BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());

5. 텍스트 콘텐츠 추출

추가 처리를 위해 구문 분석된 콘텐츠를 일반 텍스트로 변환합니다.

System.out.println("Apache Tika - Converted input string : "   textHandler.toString());

결론

이 단계를 따르면 Java 및 Apache Tika를 사용하여 zip 아카이브 내의 여러 파일에서 콘텐츠를 효율적으로 읽고 추출할 수 있습니다. 이 기능은 텍스트 또는 문서 기반 데이터가 포함된 아카이브를 처리하는 데 특히 유용합니다.

최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3