"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > पायथन की तर्ज पर गूगल जेमिनी के साथ ट्रिकी पीडीएफ से डेटा निकालना

पायथन की तर्ज पर गूगल जेमिनी के साथ ट्रिकी पीडीएफ से डेटा निकालना

2024-08-17 को प्रकाशित
ब्राउज़ करें:115

इस गाइड में, मैं आपको दिखाऊंगा कि जेमिनी फ्लैश या जीपीटी-4ओ जैसे विज़न-लैंग्वेज मॉडल (वीएलएम) का उपयोग करके पीडीएफ से संरचित डेटा कैसे निकाला जाता है।

गूगल की दृष्टि-भाषा मॉडल की नवीनतम श्रृंखला जेमिनी ने पाठ और छवि समझ में अत्याधुनिक प्रदर्शन दिखाया है। यह बेहतर मल्टीमॉडल क्षमता और लंबी संदर्भ विंडो इसे दृश्य रूप से जटिल पीडीएफ डेटा को संसाधित करने के लिए विशेष रूप से उपयोगी बनाती है, जिसके साथ पारंपरिक निष्कर्षण मॉडल संघर्ष करते हैं, जैसे कि आंकड़े, चार्ट, टेबल और आरेख।

ऐसा करके, आप विज़ुअल फ़ाइल और वेब निष्कर्षण के लिए आसानी से अपना स्वयं का डेटा निष्कर्षण उपकरण बना सकते हैं। ऐसे:

मिथुन की लंबी संदर्भ विंडो और मल्टीमॉडल क्षमता इसे दृश्य रूप से जटिल पीडीएफ डेटा को संसाधित करने के लिए विशेष रूप से उपयोगी बनाती है जहां पारंपरिक निष्कर्षण मॉडल संघर्ष करते हैं।

अपना वातावरण स्थापित करना

निष्कर्षण में उतरने से पहले, आइए अपना विकास परिवेश स्थापित करें। यह मार्गदर्शिका मानती है कि आपके सिस्टम पर Python स्थापित है। यदि नहीं, तो इसे https://www.python.org/downloads/

से डाउनलोड और इंस्टॉल करें

⚠️ ध्यान दें, यदि आप पायथन का उपयोग नहीं करना चाहते हैं, तो आप अपनी फ़ाइलें अपलोड करने और बिना कोई कोड लिखे सीएसवी के रूप में अपना परिणाम डाउनलोड करने के लिए thepi.pe पर क्लाउड प्लेटफ़ॉर्म का उपयोग कर सकते हैं।

आवश्यक पुस्तकालय स्थापित करें

अपना टर्मिनल या कमांड प्रॉम्प्ट खोलें और निम्नलिखित कमांड चलाएँ:

pip install git https://github.com/emcf/thepipe
pip install pandas

पाइथॉन में नए लोगों के लिए, पाइप पायथन के लिए पैकेज इंस्टॉलर है, और ये कमांड आवश्यक लाइब्रेरी डाउनलोड और इंस्टॉल करेंगे।

अपनी एपीआई कुंजी सेट करें

पाइप का उपयोग करने के लिए, आपको एक एपीआई कुंजी की आवश्यकता है।

अस्वीकरण: जबकि thepi.pe एक मुफ़्त ओपन सोर्स टूल है, एपीआई की लागत लगभग $0.00002 प्रति टोकन है। यदि आप ऐसी लागतों से बचना चाहते हैं, तो GitHub पर स्थानीय सेटअप निर्देश देखें। ध्यान दें कि आपको अभी भी अपनी पसंद के एलएलएम प्रदाता को भुगतान करना होगा।

इसे कैसे प्राप्त करें और सेट अप करें, यहां बताया गया है:

  1. https://thepi.pe/platform/ पर जाएं
  2. एक खाता बनाएं या लॉग - इन करें
  3. सेटिंग्स पेज में अपनी एपीआई कुंजी ढूंढें

Extracting Data from Tricky PDFs with Google Gemini in lines of Python

अब, आपको इसे एक पर्यावरण चर के रूप में सेट करने की आवश्यकता है। प्रक्रिया आपके ऑपरेटिंग सिस्टम के आधार पर भिन्न होती है:

  • thepi.pe प्लेटफॉर्म पर सेटिंग मेनू से एपीआई कुंजी की प्रतिलिपि बनाएं

विंडोज के लिए:

  1. प्रारंभ मेनू में "पर्यावरण चर" खोजें
  2. "सिस्टम वातावरण चर संपादित करें" पर क्लिक करें
  3. "पर्यावरण चर" बटन पर क्लिक करें
  4. "उपयोगकर्ता चर" के अंतर्गत, "नया" पर क्लिक करें
  5. वैरिएबल नाम को THEPIPE_API_KEY और मान को अपनी API कुंजी के रूप में सेट करें
  6. सहेजने के लिए "ओके" पर क्लिक करें

MacOS और Linux के लिए:
अपना टर्मिनल खोलें और इस लाइन को अपनी शेल कॉन्फ़िगरेशन फ़ाइल में जोड़ें (उदाहरण के लिए, ~/.bashrc या ~/.zshrc):

export THEPIPE_API_KEY=your_api_key_here

फिर, अपना कॉन्फ़िगरेशन पुनः लोड करें:

source ~/.bashrc # or ~/.zshrc

आपकी निष्कर्षण स्कीमा को परिभाषित करना

सफल निष्कर्षण की कुंजी उस डेटा के लिए एक स्पष्ट स्कीमा को परिभाषित करना है जिसे आप निकालना चाहते हैं। मान लीजिए कि हम मात्रा दस्तावेज़ से डेटा निकाल रहे हैं:

Extracting Data from Tricky PDFs with Google Gemini in lines of Python

मात्रा के बिल दस्तावेज़ के एक पृष्ठ का एक उदाहरण। प्रत्येक पृष्ठ का डेटा अन्य पृष्ठों से स्वतंत्र है, इसलिए हम अपना निष्कर्षण "प्रति पृष्ठ" करते हैं। प्रति पृष्ठ निकालने के लिए डेटा के कई टुकड़े होते हैं, इसलिए हम एकाधिक निष्कर्षण को सही पर सेट करते हैं

कॉलम नामों को देखते हुए, हम शायद इस तरह एक स्कीमा निकालना चाहेंगे:

schema = {
  "item": "string",
  "unit": "string",
  "quantity": "int",
}

आप thepi.pe प्लेटफ़ॉर्म पर स्कीमा को अपनी पसंद के अनुसार संशोधित कर सकते हैं। "स्कीमा देखें" पर क्लिक करने से आपको एक स्कीमा मिलेगा जिसे आप पायथन एपीआई के साथ उपयोग के लिए कॉपी और पेस्ट कर सकते हैं

Image description

पीडीएफ़ से डेटा निकालना

अब, पीडीएफ से डेटा खींचने के लिए extract_from_file का उपयोग करें:

from thepipe.extract import extract_from_file
results = extract_from_file(
  file_path = "bill_of_quantity.pdf",
  schema = schema,
  ai_model = "google/gemini-flash-1.5b",
  chunking_method = "chunk_by_page"
)

यहां, हमारे पास chunking_method = "chunk_by_page" है क्योंकि हम प्रत्येक पृष्ठ को एआई मॉडल पर व्यक्तिगत रूप से भेजना चाहते हैं (पीडीएफ सभी को एक साथ फीड करने के लिए बहुत बड़ा है)। हमने multiple_extractions=True भी सेट किया है क्योंकि प्रत्येक पीडीएफ पेज में डेटा की कई पंक्तियाँ होती हैं। पीडीएफ का एक पृष्ठ इस प्रकार दिखता है:

Image description

मात्रा के बिल पीडीएफ के लिए निष्कर्षण के परिणाम जैसा कि thepi.pe प्लेटफॉर्म पर देखा गया है

परिणामों का प्रसंस्करण

निष्कर्षण परिणाम शब्दकोशों की सूची के रूप में लौटाए जाते हैं। हम पांडा डेटाफ़्रेम बनाने के लिए इन परिणामों को संसाधित कर सकते हैं:

import pandas as pd
df = pd.DataFrame(results)
# Display the first few rows of the DataFrame
print(df.head())

यह सभी निकाली गई जानकारी के साथ एक डेटाफ़्रेम बनाता है, जिसमें पाठ्य सामग्री और आंकड़े और तालिकाओं जैसे दृश्य तत्वों का विवरण शामिल है।

विभिन्न प्रारूपों में निर्यात करना

अब जब हमारा डेटा डेटाफ़्रेम में है, तो हम इसे आसानी से विभिन्न प्रारूपों में निर्यात कर सकते हैं। यहां कुछ विकल्प दिए गए हैं:

एक्सेल में निर्यात किया जा रहा है

df.to_excel("extracted_research_data.xlsx", index=False, sheet_name="Research Data")

यह "Research Data" नामक शीट के साथ "extracted_research_data.xlsx" नामक एक एक्सेल फ़ाइल बनाता है। इंडेक्स=गलत पैरामीटर डेटाफ़्रेम इंडेक्स को एक अलग कॉलम के रूप में शामिल होने से रोकता है।

सीएसवी को निर्यात किया जा रहा है

यदि आप सरल प्रारूप पसंद करते हैं, तो आप CSV पर निर्यात कर सकते हैं:

df.to_csv("extracted_research_data.csv", index=False)

यह एक CSV फ़ाइल बनाता है जिसे एक्सेल या किसी टेक्स्ट एडिटर में खोला जा सकता है।

समापन नोट्स

सफल निष्कर्षण की कुंजी एक स्पष्ट स्कीमा को परिभाषित करने और एआई मॉडल की मल्टीमॉडल क्षमताओं का उपयोग करने में निहित है। जैसे-जैसे आप इन तकनीकों के साथ अधिक सहज हो जाते हैं, आप कस्टम चंकिंग विधियों, कस्टम निष्कर्षण संकेतों और निष्कर्षण प्रक्रिया को बड़ी डेटा पाइपलाइनों में एकीकृत करने जैसी अधिक उन्नत सुविधाओं का पता लगा सकते हैं।

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://dev.to/emcf/extracting-data-from-tricky-pdfs-with-google-gemini-in-10-lines-of-python-7ni?1 यदि कोई उल्लंघन है , कृपया स्टडी_गोलंग @163.कॉमडिलीट से संपर्क करें
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3