पायथन में अपडेटेड पीडीएफमाइनर एपीआई का उपयोग करके पीडीएफ फाइलों से टेक्स्ट कैसे निकालें?

मुखपृष्ठ > प्रोग्रामिंग > पायथन में अपडेटेड पीडीएफमाइनर एपीआई का उपयोग करके पीडीएफ फाइलों से टेक्स्ट कैसे निकालें?

पायथन में अपडेटेड पीडीएफमाइनर एपीआई का उपयोग करके पीडीएफ फाइलों से टेक्स्ट कैसे निकालें?

2024-11-09 को प्रकाशित

ब्राउज़ करें:690

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

पायथन में पीडीएफमाइनर के साथ पीडीएफ फाइलों से टेक्स्ट निकालना

पीडीएफ दस्तावेजों के साथ काम करते समय, टेक्स्ट निकालना एक महत्वपूर्ण कार्य हो सकता है। पीडीएफमाइनर, एक पायथन लाइब्रेरी, इस प्रक्रिया को सरल बनाती है, डेवलपर्स को पीडीएफ फाइलों से पाठ को पार्स करने और निकालने में सक्षम बनाती है। ने अपने एपीआई में बदलाव किए, जिससे कई मौजूदा उदाहरण अप्रचलित हो गए। नवीनतम संस्करण में परिवर्तन डेवलपर्स को भ्रमित कर सकता है, वे अनिश्चित हो सकते हैं कि पाठ निष्कर्षण जैसे बुनियादी कार्य कैसे करें। उदाहरण जो दर्शाता है कि मौजूदा पीडीएफमाइनर लाइब्रेरी का उपयोग करके पीडीएफ फाइल से टेक्स्ट कैसे निकाला जाए:

from pdfminer.pdfinterp आयात पीडीएफ रिसोर्स मैनेजर, पीडीएफ पेज इंटरप्रेटर pdfminer.converter से TextConverter आयात करें pdfminer.layout से LAParams आयात करें pdfminer.pdfpage से PDFPage आयात करें आईओ से स्ट्रिंगआईओ आयात करें def Convert_pdf_to_txt(पथ): rsrcmgr = PDFResourceManager() retstr = स्ट्रिंगआईओ() कोडेक = 'utf-8' लैपरम्स = लैपरम्स() डिवाइस = टेक्स्ट कनवर्टर(rsrcmgr, retstr, कोडेक=कोडेक, लैपरम्स=लैपरम्स) एफपी = खुला (पथ, 'आरबी') दुभाषिया = PDFPageInterpreter(rsrcmgr, डिवाइस) पासवर्ड = "" अधिकतम पृष्ठ = 0 कैशिंग = सत्य पेजनोस=सेट() PDFPage.get_pages में पेज के लिए (fp, पेजनोस, maxpages=maxpages, पासवर्ड=पासवर्ड, कैशिंग=कैशिंग, check_extractable=True): दुभाषिया.प्रक्रिया_पृष्ठ(पेज) टेक्स्ट = retstr.getvalue() fp.बंद करें() डिवाइस.बंद करें() retstr.बंद करें() रिटर्न टेक्स्ट

यह कोड सभी आवश्यक चरणों को कवर करते हुए टेक्स्ट निष्कर्षण के लिए एक व्यापक दृष्टिकोण प्रदान करता है। Convert_pdf_to_txt फ़ंक्शन इनपुट के रूप में एक फ़ाइल पथ लेता है और फ़ाइल को खोलने, दस्तावेज़ पार्सर को प्रारंभ करने और पृष्ठ सामग्री को टेक्स्ट स्ट्रिंग में परिवर्तित करने की प्रक्रिया को संभालता है।

यह उदाहरण अद्यतन PDFMiner सिंटैक्स को दिखाता है, जिससे इसकी आवश्यकता समाप्त हो जाती है पुराना कोड. इसे नवीनतम PDFMiner संस्करण के साथ उपयोग के लिए पूरी तरह से परीक्षण और मान्य किया गया है।

विज्ञप्ति वक्तव्य यह लेख यहां पुनर्मुद्रित है: 1729146198 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए स्टडी_गोलंग@163.कॉम से संपर्क करें।

नवीनतम ट्यूटोरियल अधिक>

Microsoft Visual C ++ दो-चरण टेम्पलेट तात्कालिकता को सही ढंग से लागू करने में विफल क्यों होता है?
तंत्र के कौन से विशिष्ट पहलू अपेक्षित रूप से संचालित करने में विफल होते हैं? हालाँकि, इस बारे में संदेह उत्पन्न होता है कि क्या यह चेक सत्यापित करता ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
UTF-8 बनाम लैटिन -1: द सीक्रेट ऑफ कैरेक्टर एन्कोडिंग!
] उनके अनुप्रयोगों के बीच, एक मौलिक प्रश्न उठता है: क्या समझदार विशेषताएं इन दो एन्कोडिंग को अलग करती हैं? जबकि लैटिन 1 विशेष रूप से लैटिन पात्रों को ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
सरणी
] एरेज़ ऑब्जेक्ट हैं, इसलिए उनके पास जेएस में भी तरीके हैं। स्लाइस (शुरुआत): मूल सरणी को म्यूट किए बिना, एक नए सरणी में सरणी का हिस्सा निकाले...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
मैं जावा स्ट्रिंग में कई सब्सट्रेट्स को कुशलता से कैसे बदल सकता हूं?
] हालाँकि, यह बड़े तार के लिए अक्षम हो सकता है या जब कई तार के साथ काम कर रहा है। नियमित अभिव्यक्तियाँ आपको जटिल खोज पैटर्न को परिभाषित करने और एकल ऑप...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
भाग SQL इंजेक्शन श्रृंखला: उन्नत SQL इंजेक्शन तकनीकों की विस्तृत व्याख्या
वेमैप पेंटिंग टूल: यहां क्लिक करें TrixSec github: यहाँ क्लिक करें TRIXSEC टेलीग्राम: यहां क्लिक करें ] हमारी SQL इंजेक्शन श्रृंखला के...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
PYTZ शुरू में अप्रत्याशित समय क्षेत्र ऑफसेट क्यों दिखाता है?
] उदाहरण के लिए, एशिया/hong_kong शुरू में एक सात घंटे और 37 मिनट की ऑफसेट दिखाता है: आयात pytz Std> विसंगति स्रोत समय क्षेत्र और ऑफसेट प...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
कैसे ठीक करें "सामान्य त्रुटि: 2006 MySQL सर्वर डेटा डालते समय दूर चला गया है?
] यह त्रुटि तब होती है जब सर्वर का कनेक्शन खो जाता है, आमतौर पर MySQL कॉन्फ़िगरेशन में दो चर में से एक के कारण। ये चर उस अधिकतम समय को नियंत्रित करते ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
हम दुर्भावनापूर्ण सामग्री के खिलाफ फ़ाइल अपलोड को कैसे सुरक्षित कर सकते हैं?
] इन खतरों को समझना और प्रभावी शमन रणनीतियों को लागू करना आपके आवेदन की सुरक्षा को बनाए रखने के लिए महत्वपूर्ण है। इसलिए, अपलोड की गई फ़ाइल के हर पहलू...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
जावास्क्रिप्ट में नियमित अभिव्यक्तियों का उपयोग करके स्ट्रिंग्स से लाइन ब्रेक कैसे निकालें?
] सवाल उठता है: .replace विधि के भीतर एक नियमित अभिव्यक्ति में लाइन ब्रेक का प्रतिनिधित्व कैसे किया जा सकता है? विंडोज "\ r \ n" अनुक्रम का ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
फ़ायरफ़ॉक्स बैक बटन का उपयोग करते समय जावास्क्रिप्ट निष्पादन क्यों बंद हो जाता है?
] यह समस्या क्रोम और इंटरनेट एक्सप्लोरर जैसे अन्य ब्राउज़रों में नहीं होती है। इस समस्या को हल करने के लिए और बाद के पृष्ठ के दौरे पर स्क्रिप्ट निष्पा...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
PHP का उपयोग करके MySQL में बूँदों (चित्र) को ठीक से कैसे डालें?
] यह गाइड आपके छवि डेटा को सफलतापूर्वक संग्रहीत करने के लिए समाधान प्रदान करेगा। ImageStore (ImageId, Image) मान ('$ यह- & gt; image_id', ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
क्या मैं McRypt से OpenSSL में अपने एन्क्रिप्शन को माइग्रेट कर सकता हूं, और OpenSSL का उपयोग करके McRypt-encrypted डेटा को डिक्रिप्ट कर सकता हूं?
] OpenSSL में, क्या McRypt के साथ एन्क्रिप्ट किए गए डेटा को डिक्रिप्ट करना संभव है? दो अलग -अलग पोस्ट परस्पर विरोधी जानकारी प्रदान करते हैं। यदि ऐसा ह...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
जेएस और मूल बातें
] ] जेएस और कोर प्रोग्रामिंग अवधारणाओं की मूल बातें समझना किसी को भी वेब विकास या सामान्य सॉफ्टवेयर प्रोग्रामिंग में गोता लगाने के लिए आवश्यक है। यह म...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
क्या जावा में कलेक्शन ट्रैवर्सल के लिए एक-प्रत्येक लूप और एक पुनरावृत्ति का उपयोग करने के बीच एक प्रदर्शन अंतर है?
के लिए यह लेख इन दो दृष्टिकोणों के बीच दक्षता के अंतर की पड़ताल करता है। यह आंतरिक रूप से iterator का उपयोग करता है: सूची a = new ArrayList ...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया
कैसे जांचें कि क्या किसी वस्तु की पायथन में एक विशिष्ट विशेषता है?
] निम्नलिखित उदाहरण पर विचार करें जहां एक अपरिभाषित संपत्ति तक पहुंचने का प्रयास एक त्रुटि उठाता है: >>> a = someclass () >>> a.property ट्रेसबैक (स...

प्रोग्रामिंग 2025-03-12 को पोस्ट किया गया