PyMuPDF4LLM एक लाइब्रेरी है जिसे पीडीएफ को मार्कडाउन प्रारूप में परिवर्तित करने के लिए डिज़ाइन किया गया है। यहां, मैं इस लाइब्रेरी का परीक्षण करने का अपना अनुभव साझा करूंगा।
निम्न आदेश का उपयोग करके लाइब्रेरी स्थापित करके प्रारंभ करें:
pip install pymupdf4llm
मूल उपयोग काफी सरल है, पीडीएफ को मार्कडाउन में बदलने के लिए कोड की केवल तीन पंक्तियों की आवश्यकता होती है:
import pymupdf4llm md_text = pymupdf4llm.to_markdown("input.pdf") print(md_text)
आप सामग्री निकालने के तरीके को समायोजित करने के लिए तर्क निर्दिष्ट कर सकते हैं।
डिफ़ॉल्ट रूप से, संपूर्ण पीडीएफ एक एकल टेक्स्ट आउटपुट में परिवर्तित हो जाता है। हालाँकि, आप page_chunks=True निर्दिष्ट करके पृष्ठ दर पृष्ठ टेक्स्ट निकाल सकते हैं।
md_text = pymupdf4llm.to_markdown("input.pdf", page_chunks=True)
छवियों को फ़ाइलों के रूप में निकालने के लिए, write_images=True विकल्प का उपयोग करें:
md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)
बेस64 एन्कोडिंग का उपयोग करके छवियों को सीधे मार्कडाउन में एम्बेड करना भी संभव है:
md_text = pymupdf4llm.to_markdown("input.pdf", embed_images=True)
परीक्षण के लिए, विभिन्न मार्कडाउन तत्वों के साथ विभिन्न पीडीएफ का उपयोग किया गया था।
हेडर सही ढंग से मार्कडाउन प्रारूप में परिवर्तित हो गए हैं। यहां परिणाम का एक भाग है:
# Sample Markdown Guide This is a sample markdown file that includes various features for quick reference. ## 1. Headers ... ## 3. Lists
बोल्ड और इटैलिक फ़ॉर्मेटिंग को भी ठीक से रूपांतरित किया गया है:
**Bold: **Bold Text**** _Italic: *Italic Text*_ **_Bold and Italic: ***Bold and Italic***_**
पहले स्तर पर ऑर्डर की गई सूचियां बिना किसी समस्या के परिवर्तित हो जाती हैं, लेकिन नेस्टेड सूचियां और अव्यवस्थित सूचियां सटीक रूप से परिवर्तित नहीं होती हैं।
## 3. Lists ### Unordered List Item 1 Item 2 Sub-item 1 Sub-item 2 ### Ordered List 1. First item 2. Second item 1. Sub-item A 2. Sub-item B
लिंक के यूआरएल निकाले जाते हैं, लेकिन लिंक वाली पूरी लाइन मूल प्रारूप से हटकर हाइपरलिंक बन जाती है।
## 4. Links and Images [You can add links using [Link Text](URL).](https://www.example.com/)
छवियां डिफ़ॉल्ट रूप से नहीं निकाली जाती हैं, लेकिन write_images=True के साथ स्थानीय रूप से सहेजी जा सकती हैं।
md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)
सहेजी गई छवियों को मार्कडाउन में निम्नानुसार संदर्भित किया गया है:
### Image Example
![](input.pdf-1-0.png)
ऊर्ध्वाधर सीमाओं के बिना सरल तालिकाओं को सटीक रूप से परिवर्तित नहीं किया जाता है (संभवतः क्योंकि अस्पष्ट स्तंभ सीमाओं के परिणामस्वरूप तालिकाओं को सादे पाठ के रूप में माना जाता है)।
## 5. Tables
**Column 1** **Column 2** **Column 3**
Row 1 Data A Data B
Row 2 Data C Data D
कोड ब्लॉक सही ढंग से परिवर्तित किए गए हैं, लेकिन भाषा विनिर्देश (उदाहरण के लिए, पायथन) बरकरार नहीं रखा गया है। इनलाइन कोड रूपांतरण में भी समस्याएं हैं।
## 6. Code
### Inline Code
Use backticks for inline code: print("Hello, world!")
### Code Block
Use triple backticks for code blocks:
```
def greet(name):
return f"Hello, {name}!"
print(greet("Markdown"))
```
बहु-पंक्ति पाठ के लिए, पंक्ति विराम उसी प्रकार संरक्षित किए जाते हैं जैसे वे मूल पीडीएफ में दिखाई देते हैं।
Markdown is a lightweight and versatile markup language favored by developers, writers, and bloggers alike
due to its simplicity in formatting text, enabling users to create readable and well-structured documents—
whether for documentation, blog posts, or articles—without the complexity of HTML, while also offering the
ability to convert content seamlessly into other formats like HTML, PDF, and even slideshows, making it an
ideal choice for projects that require both clarity and flexibility in presentation.
सूचियों और लिंक को सटीक रूप से परिवर्तित करने में चुनौतियों के बावजूद, PyMuPDF4LLM पीडीएफ को मार्कडाउन में परिवर्तित करने के लिए एक उपयोगी उपकरण है। यह बाहरी भाषा मॉडल की आवश्यकता के बिना स्थानीय रूप से काम कर सकता है, जिससे यह उन वातावरणों के लिए उपयुक्त हो जाता है जहां इंटरनेट पहुंच अनुपलब्ध है।
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3