Java 및 Apache Tika를 사용하여 Zip 아카이브 내의 파일에서 콘텐츠를 읽고 추출하는 방법
Zip 아카이브에서 콘텐츠를 읽고 추출하는 작업 달성 Java 및 Apache Tika를 사용하여 zip 아카이브 내의 파일을 저장하려면 몇 가지 주요 단계가 필요합니다.
1. 입력 초기화
처리할 파일에서 입력 스트림을 생성하여 시작합니다.
InputStream input = new FileInputStream(file);
2. Zip 아카이브 구문 분석
Zip 아카이브를 구문 분석하고 개별 ZipEntries를 얻기 위해 ZipInputStream을 생성합니다:
ZipInputStream zip = new ZipInputStream(input);
3. 파일 형식을 기준으로 콘텐츠 추출
ZipEntries를 반복하여 지원되는 파일 형식(예: .txt, .pdf, .docx)을 식별합니다.
while (entry != null) {
if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
// Process the file
}
entry = zip.getNextEntry();
}
4. Apache Tika를 사용하여 콘텐츠 구문 분석
Apache Tika를 사용하여 식별된 파일의 콘텐츠를 구문 분석합니다.
BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());
5. 텍스트 콘텐츠 추출
추가 처리를 위해 구문 분석된 콘텐츠를 일반 텍스트로 변환합니다.
System.out.println("Apache Tika - Converted input string : " textHandler.toString());
결론
이 단계를 따르면 Java 및 Apache Tika를 사용하여 zip 아카이브 내의 여러 파일에서 콘텐츠를 효율적으로 읽고 추출할 수 있습니다. 이 기능은 텍스트 또는 문서 기반 데이터가 포함된 아카이브를 처리하는 데 특히 유용합니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3