पायथन में पीडीएफमाइनर के साथ पीडीएफ फाइलों से टेक्स्ट निकालना
पीडीएफ दस्तावेजों के साथ काम करते समय, टेक्स्ट निकालना एक महत्वपूर्ण कार्य हो सकता है। पीडीएफमाइनर, एक पायथन लाइब्रेरी, इस प्रक्रिया को सरल बनाती है, डेवलपर्स को पीडीएफ फाइलों से पाठ को पार्स करने और निकालने में सक्षम बनाती है। ने अपने एपीआई में बदलाव किए, जिससे कई मौजूदा उदाहरण अप्रचलित हो गए। नवीनतम संस्करण में परिवर्तन डेवलपर्स को भ्रमित कर सकता है, वे अनिश्चित हो सकते हैं कि पाठ निष्कर्षण जैसे बुनियादी कार्य कैसे करें। उदाहरण जो दर्शाता है कि मौजूदा पीडीएफमाइनर लाइब्रेरी का उपयोग करके पीडीएफ फाइल से टेक्स्ट कैसे निकाला जाए:
from pdfminer.pdfinterp आयात पीडीएफ रिसोर्स मैनेजर, पीडीएफ पेज इंटरप्रेटर pdfminer.converter से TextConverter आयात करें pdfminer.layout से LAParams आयात करें pdfminer.pdfpage से PDFPage आयात करें आईओ से स्ट्रिंगआईओ आयात करें def Convert_pdf_to_txt(पथ): rsrcmgr = PDFResourceManager() retstr = स्ट्रिंगआईओ() कोडेक = 'utf-8' लैपरम्स = लैपरम्स() डिवाइस = टेक्स्ट कनवर्टर(rsrcmgr, retstr, कोडेक=कोडेक, लैपरम्स=लैपरम्स) एफपी = खुला (पथ, 'आरबी') दुभाषिया = PDFPageInterpreter(rsrcmgr, डिवाइस) पासवर्ड = "" अधिकतम पृष्ठ = 0 कैशिंग = सत्य पेजनोस=सेट() PDFPage.get_pages में पेज के लिए (fp, पेजनोस, maxpages=maxpages, पासवर्ड=पासवर्ड, कैशिंग=कैशिंग, check_extractable=True): दुभाषिया.प्रक्रिया_पृष्ठ(पेज) टेक्स्ट = retstr.getvalue() fp.बंद करें() डिवाइस.बंद करें() retstr.बंद करें() रिटर्न टेक्स्ट
यह कोड सभी आवश्यक चरणों को कवर करते हुए टेक्स्ट निष्कर्षण के लिए एक व्यापक दृष्टिकोण प्रदान करता है। Convert_pdf_to_txt फ़ंक्शन इनपुट के रूप में एक फ़ाइल पथ लेता है और फ़ाइल को खोलने, दस्तावेज़ पार्सर को प्रारंभ करने और पृष्ठ सामग्री को टेक्स्ट स्ट्रिंग में परिवर्तित करने की प्रक्रिया को संभालता है।यह उदाहरण अद्यतन PDFMiner सिंटैक्स को दिखाता है, जिससे इसकी आवश्यकता समाप्त हो जाती है पुराना कोड. इसे नवीनतम PDFMiner संस्करण के साथ उपयोग के लिए पूरी तरह से परीक्षण और मान्य किया गया है।अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3