जावा और अपाचे टीका का उपयोग करके ज़िप संग्रह के भीतर फ़ाइलों से सामग्री को कैसे पढ़ें और निकालें
सामग्री को पढ़ने और निकालने का कार्य प्राप्त करना जावा और अपाचे टीका का उपयोग करके ज़िप संग्रह के भीतर फ़ाइलों में कुछ महत्वपूर्ण चरण शामिल होते हैं।
1. इनपुट प्रारंभ करें
संसाधित की जाने वाली फ़ाइल से एक इनपुट स्ट्रीम बनाकर प्रारंभ करें:
InputStream input = new FileInputStream(file);
2. पार्स ज़िप संग्रह
ज़िप संग्रह को पार्स करने और अलग-अलग ZipEntries प्राप्त करने के लिए एक ZipInputStream बनाएं:
ZipInputStream zip = new ZipInputStream(input);
3. फ़ाइल प्रकार के आधार पर सामग्री निकालें
ZipEntries के माध्यम से पुनरावृत्त करें, समर्थित फ़ाइल प्रकारों (जैसे, .txt, .pdf, .docx) वाले लोगों की पहचान करें:
while (entry != null) {
if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
// Process the file
}
entry = zip.getNextEntry();
}
4. Apache Tika का उपयोग करके सामग्री को पार्स करें
पहचानी गई फ़ाइलों की सामग्री को पार्स करने के लिए Apache Tika का उपयोग करें:
BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());
5। पाठ्य सामग्री निकालें
आगे की प्रक्रिया के लिए पार्स की गई सामग्री को सादे पाठ में बदलें:
System.out.println("Apache Tika - Converted input string : " textHandler.toString());
निष्कर्ष
इन चरणों का पालन करके, आप जावा और अपाचे टीका का उपयोग करके एक ज़िप संग्रह के भीतर कई फ़ाइलों से सामग्री को कुशलतापूर्वक पढ़ और निकाल सकते हैं। यह कार्यक्षमता पाठ्य या दस्तावेज़-आधारित डेटा वाले अभिलेखागार को संसाधित करने के लिए विशेष रूप से उपयोगी है।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3