"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > पायथन में अपडेटेड पीडीएफमाइनर एपीआई का उपयोग करके पीडीएफ फाइलों से टेक्स्ट कैसे निकालें?

पायथन में अपडेटेड पीडीएफमाइनर एपीआई का उपयोग करके पीडीएफ फाइलों से टेक्स्ट कैसे निकालें?

2024-11-09 को प्रकाशित
ब्राउज़ करें:361

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

पायथन में पीडीएफमाइनर के साथ पीडीएफ फाइलों से टेक्स्ट निकालना

पीडीएफ दस्तावेजों के साथ काम करते समय, टेक्स्ट निकालना एक महत्वपूर्ण कार्य हो सकता है। पीडीएफमाइनर, एक पायथन लाइब्रेरी, इस प्रक्रिया को सरल बनाती है, डेवलपर्स को पीडीएफ फाइलों से पाठ को पार्स करने और निकालने में सक्षम बनाती है। ने अपने एपीआई में बदलाव किए, जिससे कई मौजूदा उदाहरण अप्रचलित हो गए। नवीनतम संस्करण में परिवर्तन डेवलपर्स को भ्रमित कर सकता है, वे अनिश्चित हो सकते हैं कि पाठ निष्कर्षण जैसे बुनियादी कार्य कैसे करें। उदाहरण जो दर्शाता है कि मौजूदा पीडीएफमाइनर लाइब्रेरी का उपयोग करके पीडीएफ फाइल से टेक्स्ट कैसे निकाला जाए:

from pdfminer.pdfinterp आयात पीडीएफ रिसोर्स मैनेजर, पीडीएफ पेज इंटरप्रेटर pdfminer.converter से TextConverter आयात करें pdfminer.layout से LAParams आयात करें pdfminer.pdfpage से PDFPage आयात करें आईओ से स्ट्रिंगआईओ आयात करें def Convert_pdf_to_txt(पथ): rsrcmgr = PDFResourceManager() retstr = स्ट्रिंगआईओ() कोडेक = 'utf-8' लैपरम्स = लैपरम्स() डिवाइस = टेक्स्ट कनवर्टर(rsrcmgr, retstr, कोडेक=कोडेक, लैपरम्स=लैपरम्स) एफपी = खुला (पथ, 'आरबी') दुभाषिया = PDFPageInterpreter(rsrcmgr, डिवाइस) पासवर्ड = "" अधिकतम पृष्ठ = 0 कैशिंग = सत्य पेजनोस=सेट() PDFPage.get_pages में पेज के लिए (fp, पेजनोस, maxpages=maxpages, पासवर्ड=पासवर्ड, कैशिंग=कैशिंग, check_extractable=True): दुभाषिया.प्रक्रिया_पृष्ठ(पेज) टेक्स्ट = retstr.getvalue() fp.बंद करें() डिवाइस.बंद करें() retstr.बंद करें() रिटर्न टेक्स्ट

यह कोड सभी आवश्यक चरणों को कवर करते हुए टेक्स्ट निष्कर्षण के लिए एक व्यापक दृष्टिकोण प्रदान करता है। Convert_pdf_to_txt फ़ंक्शन इनपुट के रूप में एक फ़ाइल पथ लेता है और फ़ाइल को खोलने, दस्तावेज़ पार्सर को प्रारंभ करने और पृष्ठ सामग्री को टेक्स्ट स्ट्रिंग में परिवर्तित करने की प्रक्रिया को संभालता है।

यह उदाहरण अद्यतन PDFMiner सिंटैक्स को दिखाता है, जिससे इसकी आवश्यकता समाप्त हो जाती है पुराना कोड. इसे नवीनतम PDFMiner संस्करण के साथ उपयोग के लिए पूरी तरह से परीक्षण और मान्य किया गया है।

विज्ञप्ति वक्तव्य यह लेख यहां पुनर्मुद्रित है: 1729146198 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए स्टडी_गोलंग@163.कॉम से संपर्क करें।
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3