जावा और अपाचे टीका का उपयोग करके ज़िप संग्रह के भीतर फ़ाइलों से सामग्री कैसे निकालें?

मुखपृष्ठ > प्रोग्रामिंग > जावा और अपाचे टीका का उपयोग करके ज़िप संग्रह के भीतर फ़ाइलों से सामग्री कैसे निकालें?

जावा और अपाचे टीका का उपयोग करके ज़िप संग्रह के भीतर फ़ाइलों से सामग्री कैसे निकालें?

2024-11-08 को प्रकाशित

ब्राउज़ करें:493

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

जावा और अपाचे टीका का उपयोग करके ज़िप संग्रह के भीतर फ़ाइलों से सामग्री को कैसे पढ़ें और निकालें

सामग्री को पढ़ने और निकालने का कार्य प्राप्त करना जावा और अपाचे टीका का उपयोग करके ज़िप संग्रह के भीतर फ़ाइलों में कुछ महत्वपूर्ण चरण शामिल होते हैं।

1. इनपुट प्रारंभ करें

संसाधित की जाने वाली फ़ाइल से एक इनपुट स्ट्रीम बनाकर प्रारंभ करें:

InputStream input = new FileInputStream(file);

2. पार्स ज़िप संग्रह

ज़िप संग्रह को पार्स करने और अलग-अलग ZipEntries प्राप्त करने के लिए एक ZipInputStream बनाएं:

ZipInputStream zip = new ZipInputStream(input);

3. फ़ाइल प्रकार के आधार पर सामग्री निकालें

ZipEntries के माध्यम से पुनरावृत्त करें, समर्थित फ़ाइल प्रकारों (जैसे, .txt, .pdf, .docx) वाले लोगों की पहचान करें:

while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}

4. Apache Tika का उपयोग करके सामग्री को पार्स करें

पहचानी गई फ़ाइलों की सामग्री को पार्स करने के लिए Apache Tika का उपयोग करें:

BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());

5। पाठ्य सामग्री निकालें

आगे की प्रक्रिया के लिए पार्स की गई सामग्री को सादे पाठ में बदलें:

System.out.println("Apache Tika - Converted input string : "   textHandler.toString());

निष्कर्ष

इन चरणों का पालन करके, आप जावा और अपाचे टीका का उपयोग करके एक ज़िप संग्रह के भीतर कई फ़ाइलों से सामग्री को कुशलतापूर्वक पढ़ और निकाल सकते हैं। यह कार्यक्षमता पाठ्य या दस्तावेज़-आधारित डेटा वाले अभिलेखागार को संसाधित करने के लिए विशेष रूप से उपयोगी है।

नवीनतम ट्यूटोरियल अधिक>

$Php \ के फ़ंक्शन पुनर्वितरण प्रतिबंधों को कैसे दूर करें?$
Php \ के फ़ंक्शन पुनर्वितरण प्रतिबंधों को कैसे दूर करें?
] ऐसा करने का प्रयास करना, जैसा कि प्रदान किए गए कोड स्निपेट में देखा गया है, परिणामस्वरूप एक खूंखार "redeclare" त्रुटि हो सकती है। $ b) { $...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
होमब्रे से मेरा गो सेटअप क्यों कमांड लाइन निष्पादन मुद्दों का कारण बनता है?
] जबकि HomeBrew स्थापना प्रक्रिया को सरल करता है, यह कमांड लाइन निष्पादन और अपेक्षित व्यवहार के बीच एक संभावित विसंगति का परिचय देता है। आपके द्वारा...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
Sqlalchemy फ़िल्टर क्लॉज़ में `Flake8` फ्लैगिंग बूलियन तुलना क्यों है?
] हालांकि, यह आम तौर पर "यदि कंडे गलत है:" या "अगर कंडे नहीं:" का उपयोग करने के लिए अनुशंसित है, तो बूलियन तुलनाओं के लिए कहीं और,...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
बहु-आयामी सरणियों के लिए PHP में JSON पार्सिंग को सरल कैसे करें?
] To simplify the process, it's recommended to parse the JSON as an array rather than an object.To do this, use the json_decode function with the ...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
मैं नंबर-केवल आउटपुट के साथ एकल अंक मान्यता के लिए pytesseract को कैसे कॉन्फ़िगर कर सकता हूं?
] इस समस्या को संबोधित करने के लिए, हम Tesseract के कॉन्फ़िगरेशन विकल्पों की बारीकियों में तल्लीन करते हैं। एकल वर्ण मान्यता के लिए, उपयुक्त PSM 10 है...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
मैं पूरे HTML दस्तावेज़ में एक विशिष्ट तत्व प्रकार के पहले उदाहरण को कैसे स्टाइल कर सकता हूं?
] : प्रथम-प्रकार के छद्म-क्लास अपने मूल तत्व के भीतर एक प्रकार के पहले तत्व से मेल खाने तक सीमित है। एक प्रकार का पहला तत्व, एक जावास्क्रिप्ट सम...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
तीन MySQL तालिकाओं से डेटा को एक नई तालिका में कैसे संयोजित करें?
] लोग, विवरण, और टैक्सोनॉमी टेबल? पी।*, उम्र के रूप में d.content का चयन करें पी के रूप में लोगों से D.Person_id = P.ID पर D के रूप में विवरण में शामि...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
कैसे एक जावास्क्रिप्ट ऑब्जेक्ट की कुंजी को वर्णानुक्रम में सॉर्ट करने के लिए?
] यह निम्नलिखित चरणों का उपयोग करके प्राप्त किया जा सकता है: object की कुंजियों को एक सरणी में const unordered = { 'b': 'foo', 'c': 'bar', ...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
प्रीमियम कोणीय 1.5 घटक बनाने के लिए गाइड
关键要点组件隔离：最大限度地减少耦合，增强封装性，保持内部逻辑私有，并控制与其他组件的交互。组件专注：每个组件专注于单一职责，从而提高可测试性和可重用性，同时保持简单性。单向绑定：减少摘要周期负载，确保数据流入组件而不会受到外部干扰，从而提高性能和设计清晰度。单次绑定：通过减少摘要周期中的...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
Visual Studio 2012 में DataSource संवाद में MySQL डेटाबेस कैसे जोड़ें?
] यह लेख इस मुद्दे को संबोधित करता है और एक समाधान प्रदान करता है। इसे हल करने के लिए, यह समझना महत्वपूर्ण है कि MySQL के लिए आधिकारिक विजुअल स्टूडियो...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
PHP SIMPLEXML पार्सिंग XML विधि नेमस्पेस कोलन के साथ
] यह समस्या उत्पन्न होती है क्योंकि SIMPLEXML XML संरचनाओं को संभालने में असमर्थ है, जो डिफ़ॉल्ट नाम स्थान से विचलित हो जाती है। उदाहरण के लिए: $ xm...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
संस्करण 5.6.5 से पहले MySQL में टाइमस्टैम्प कॉलम के साथ current_timestamp का उपयोग करने पर क्या प्रतिबंध थे?
] Current_timestamp क्लॉज। यह सीमा INT, BigInt, और SmallInt पूर्णांक को वापस बढ़ाती है जब उन्हें शुरू में 2008 में पेश किया गया था। यह सीमा विरासत क...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
MySQL त्रुटि 1153 को हल करें: पैकेट 'max_allowed_packet' सीमा से अधिक है
] चलो अपराधी में तल्लीन करें और इस समस्या को ठीक करने के लिए समाधानों का पता लगाएं। आपके मामले में, यह बड़े अटैचमेंट की उपस्थिति का सुझाव देता है जो प...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
रिप्लेस डायरेक्टिव का उपयोग करके GO MOD में मॉड्यूल पथ विसंगतियों को कैसे हल करें?
यह गूँज के संदेशों द्वारा प्रदर्शित होने के कारण, ` github.com/coreos/etcd/client द्वारा github.com/coreos/tcd/client.test आयात आयात github.co...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया
मैं PHP का उपयोग करके XML फ़ाइलों से विशेषता मानों को कैसे प्राप्त कर सकता हूं?
] एक XML फ़ाइल के साथ काम करते समय, जिसमें प्रदान किए गए उदाहरण की विशेषताएं होती हैं: 1 स्टंप किया गया। इसे हल करने के लिए, PHP सिंप्लेक्...

प्रोग्रामिंग 2025-04-17 को पोस्ट किया गया