इस गाइड में, मैं आपको दिखाऊंगा कि जेमिनी फ्लैश या जीपीटी-4ओ जैसे विज़न-लैंग्वेज मॉडल (वीएलएम) का उपयोग करके पीडीएफ से संरचित डेटा कैसे निकाला जाता है।
गूगल की दृष्टि-भाषा मॉडल की नवीनतम श्रृंखला जेमिनी ने पाठ और छवि समझ में अत्याधुनिक प्रदर्शन दिखाया है। यह बेहतर मल्टीमॉडल क्षमता और लंबी संदर्भ विंडो इसे दृश्य रूप से जटिल पीडीएफ डेटा को संसाधित करने के लिए विशेष रूप से उपयोगी बनाती है, जिसके साथ पारंपरिक निष्कर्षण मॉडल संघर्ष करते हैं, जैसे कि आंकड़े, चार्ट, टेबल और आरेख।
ऐसा करके, आप विज़ुअल फ़ाइल और वेब निष्कर्षण के लिए आसानी से अपना स्वयं का डेटा निष्कर्षण उपकरण बना सकते हैं। ऐसे:
मिथुन की लंबी संदर्भ विंडो और मल्टीमॉडल क्षमता इसे दृश्य रूप से जटिल पीडीएफ डेटा को संसाधित करने के लिए विशेष रूप से उपयोगी बनाती है जहां पारंपरिक निष्कर्षण मॉडल संघर्ष करते हैं।
निष्कर्षण में उतरने से पहले, आइए अपना विकास परिवेश स्थापित करें। यह मार्गदर्शिका मानती है कि आपके सिस्टम पर Python स्थापित है। यदि नहीं, तो इसे https://www.python.org/downloads/
से डाउनलोड और इंस्टॉल करें⚠️ ध्यान दें, यदि आप पायथन का उपयोग नहीं करना चाहते हैं, तो आप अपनी फ़ाइलें अपलोड करने और बिना कोई कोड लिखे सीएसवी के रूप में अपना परिणाम डाउनलोड करने के लिए thepi.pe पर क्लाउड प्लेटफ़ॉर्म का उपयोग कर सकते हैं।
अपना टर्मिनल या कमांड प्रॉम्प्ट खोलें और निम्नलिखित कमांड चलाएँ:
pip install git https://github.com/emcf/thepipe pip install pandas
पाइथॉन में नए लोगों के लिए, पाइप पायथन के लिए पैकेज इंस्टॉलर है, और ये कमांड आवश्यक लाइब्रेरी डाउनलोड और इंस्टॉल करेंगे।
पाइप का उपयोग करने के लिए, आपको एक एपीआई कुंजी की आवश्यकता है।
अस्वीकरण: जबकि thepi.pe एक मुफ़्त ओपन सोर्स टूल है, एपीआई की लागत लगभग $0.00002 प्रति टोकन है। यदि आप ऐसी लागतों से बचना चाहते हैं, तो GitHub पर स्थानीय सेटअप निर्देश देखें। ध्यान दें कि आपको अभी भी अपनी पसंद के एलएलएम प्रदाता को भुगतान करना होगा।
इसे कैसे प्राप्त करें और सेट अप करें, यहां बताया गया है:
अब, आपको इसे एक पर्यावरण चर के रूप में सेट करने की आवश्यकता है। प्रक्रिया आपके ऑपरेटिंग सिस्टम के आधार पर भिन्न होती है:
विंडोज के लिए:
MacOS और Linux के लिए:
अपना टर्मिनल खोलें और इस लाइन को अपनी शेल कॉन्फ़िगरेशन फ़ाइल में जोड़ें (उदाहरण के लिए, ~/.bashrc या ~/.zshrc):
export THEPIPE_API_KEY=your_api_key_here
फिर, अपना कॉन्फ़िगरेशन पुनः लोड करें:
source ~/.bashrc # or ~/.zshrc
सफल निष्कर्षण की कुंजी उस डेटा के लिए एक स्पष्ट स्कीमा को परिभाषित करना है जिसे आप निकालना चाहते हैं। मान लीजिए कि हम मात्रा दस्तावेज़ से डेटा निकाल रहे हैं:
मात्रा के बिल दस्तावेज़ के एक पृष्ठ का एक उदाहरण। प्रत्येक पृष्ठ का डेटा अन्य पृष्ठों से स्वतंत्र है, इसलिए हम अपना निष्कर्षण "प्रति पृष्ठ" करते हैं। प्रति पृष्ठ निकालने के लिए डेटा के कई टुकड़े होते हैं, इसलिए हम एकाधिक निष्कर्षण को सही पर सेट करते हैं
कॉलम नामों को देखते हुए, हम शायद इस तरह एक स्कीमा निकालना चाहेंगे:
schema = { "item": "string", "unit": "string", "quantity": "int", }
आप thepi.pe प्लेटफ़ॉर्म पर स्कीमा को अपनी पसंद के अनुसार संशोधित कर सकते हैं। "स्कीमा देखें" पर क्लिक करने से आपको एक स्कीमा मिलेगा जिसे आप पायथन एपीआई के साथ उपयोग के लिए कॉपी और पेस्ट कर सकते हैं
अब, पीडीएफ से डेटा खींचने के लिए extract_from_file का उपयोग करें:
from thepipe.extract import extract_from_file results = extract_from_file( file_path = "bill_of_quantity.pdf", schema = schema, ai_model = "google/gemini-flash-1.5b", chunking_method = "chunk_by_page" )
यहां, हमारे पास chunking_method = "chunk_by_page" है क्योंकि हम प्रत्येक पृष्ठ को एआई मॉडल पर व्यक्तिगत रूप से भेजना चाहते हैं (पीडीएफ सभी को एक साथ फीड करने के लिए बहुत बड़ा है)। हमने multiple_extractions=True भी सेट किया है क्योंकि प्रत्येक पीडीएफ पेज में डेटा की कई पंक्तियाँ होती हैं। पीडीएफ का एक पृष्ठ इस प्रकार दिखता है:
मात्रा के बिल पीडीएफ के लिए निष्कर्षण के परिणाम जैसा कि thepi.pe प्लेटफॉर्म पर देखा गया है
निष्कर्षण परिणाम शब्दकोशों की सूची के रूप में लौटाए जाते हैं। हम पांडा डेटाफ़्रेम बनाने के लिए इन परिणामों को संसाधित कर सकते हैं:
import pandas as pd df = pd.DataFrame(results) # Display the first few rows of the DataFrame print(df.head())
यह सभी निकाली गई जानकारी के साथ एक डेटाफ़्रेम बनाता है, जिसमें पाठ्य सामग्री और आंकड़े और तालिकाओं जैसे दृश्य तत्वों का विवरण शामिल है।
अब जब हमारा डेटा डेटाफ़्रेम में है, तो हम इसे आसानी से विभिन्न प्रारूपों में निर्यात कर सकते हैं। यहां कुछ विकल्प दिए गए हैं:
df.to_excel("extracted_research_data.xlsx", index=False, sheet_name="Research Data")
यह "Research Data" नामक शीट के साथ "extracted_research_data.xlsx" नामक एक एक्सेल फ़ाइल बनाता है। इंडेक्स=गलत पैरामीटर डेटाफ़्रेम इंडेक्स को एक अलग कॉलम के रूप में शामिल होने से रोकता है।
यदि आप सरल प्रारूप पसंद करते हैं, तो आप CSV पर निर्यात कर सकते हैं:
df.to_csv("extracted_research_data.csv", index=False)
यह एक CSV फ़ाइल बनाता है जिसे एक्सेल या किसी टेक्स्ट एडिटर में खोला जा सकता है।
सफल निष्कर्षण की कुंजी एक स्पष्ट स्कीमा को परिभाषित करने और एआई मॉडल की मल्टीमॉडल क्षमताओं का उपयोग करने में निहित है। जैसे-जैसे आप इन तकनीकों के साथ अधिक सहज हो जाते हैं, आप कस्टम चंकिंग विधियों, कस्टम निष्कर्षण संकेतों और निष्कर्षण प्रक्रिया को बड़ी डेटा पाइपलाइनों में एकीकृत करने जैसी अधिक उन्नत सुविधाओं का पता लगा सकते हैं।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3