"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > PyMuPDFM और उसके मूल्यांकन का उपयोग करके PDF को मार्कडाउन में कैसे परिवर्तित करें

PyMuPDFM और उसके मूल्यांकन का उपयोग करके PDF को मार्कडाउन में कैसे परिवर्तित करें

2024-11-07 को प्रकाशित
ब्राउज़ करें:629

PyMuPDF4LLM एक लाइब्रेरी है जिसे पीडीएफ को मार्कडाउन प्रारूप में परिवर्तित करने के लिए डिज़ाइन किया गया है। यहां, मैं इस लाइब्रेरी का परीक्षण करने का अपना अनुभव साझा करूंगा।

इंस्टालेशन

निम्न आदेश का उपयोग करके लाइब्रेरी स्थापित करके प्रारंभ करें:


pip install pymupdf4llm


प्रयोग

मूल उपयोग काफी सरल है, पीडीएफ को मार्कडाउन में बदलने के लिए कोड की केवल तीन पंक्तियों की आवश्यकता होती है:


import pymupdf4llm
md_text = pymupdf4llm.to_markdown("input.pdf")
print(md_text)


आप सामग्री निकालने के तरीके को समायोजित करने के लिए तर्क निर्दिष्ट कर सकते हैं।

पेज द्वारा टेक्स्ट निकालना

डिफ़ॉल्ट रूप से, संपूर्ण पीडीएफ एक एकल टेक्स्ट आउटपुट में परिवर्तित हो जाता है। हालाँकि, आप page_chunks=True निर्दिष्ट करके पृष्ठ दर पृष्ठ टेक्स्ट निकाल सकते हैं।


md_text = pymupdf4llm.to_markdown("input.pdf", page_chunks=True)


छवियाँ निकालना

छवियों को फ़ाइलों के रूप में निकालने के लिए, write_images=True विकल्प का उपयोग करें:


md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)


बेस64 एन्कोडिंग का उपयोग करके छवियों को सीधे मार्कडाउन में एम्बेड करना भी संभव है:


md_text = pymupdf4llm.to_markdown("input.pdf", embed_images=True)


रूपांतरण परिणामों का मूल्यांकन

परीक्षण के लिए, विभिन्न मार्कडाउन तत्वों के साथ विभिन्न पीडीएफ का उपयोग किया गया था।

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation

शीर्षलेख रूपांतरण

हेडर सही ढंग से मार्कडाउन प्रारूप में परिवर्तित हो गए हैं। यहां परिणाम का एक भाग है:


# Sample Markdown Guide

This is a sample markdown file that includes various features for quick reference.

## 1. Headers

...

## 3. Lists


बोल्ड और इटैलिक टेक्स्ट

बोल्ड और इटैलिक फ़ॉर्मेटिंग को भी ठीक से रूपांतरित किया गया है:


**Bold: **Bold Text****

_Italic: *Italic Text*_

**_Bold and Italic: ***Bold and Italic***_**


सूची रूपांतरण

पहले स्तर पर ऑर्डर की गई सूचियां बिना किसी समस्या के परिवर्तित हो जाती हैं, लेकिन नेस्टेड सूचियां और अव्यवस्थित सूचियां सटीक रूप से परिवर्तित नहीं होती हैं।

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 3. Lists

### Unordered List

Item 1

Item 2

Sub-item 1

Sub-item 2

### Ordered List

1. First item

2. Second item

1. Sub-item A

2. Sub-item B


लिंक रूपांतरण

लिंक के यूआरएल निकाले जाते हैं, लेकिन लिंक वाली पूरी लाइन मूल प्रारूप से हटकर हाइपरलिंक बन जाती है।

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 4. Links and Images

[You can add links using [Link Text](URL).](https://www.example.com/)


छवि निष्कर्षण

छवियां डिफ़ॉल्ट रूप से नहीं निकाली जाती हैं, लेकिन write_images=True के साथ स्थानीय रूप से सहेजी जा सकती हैं।


md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)


सहेजी गई छवियों को मार्कडाउन में निम्नानुसार संदर्भित किया गया है:


### Image Example

![](input.pdf-1-0.png)




तालिका रूपांतरण

ऊर्ध्वाधर सीमाओं के बिना सरल तालिकाओं को सटीक रूप से परिवर्तित नहीं किया जाता है (संभवतः क्योंकि अस्पष्ट स्तंभ सीमाओं के परिणामस्वरूप तालिकाओं को सादे पाठ के रूप में माना जाता है)।

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 5. Tables

**Column 1** **Column 2** **Column 3**

Row 1 Data A Data B

Row 2 Data C Data D




कोड रूपांतरण

कोड ब्लॉक सही ढंग से परिवर्तित किए गए हैं, लेकिन भाषा विनिर्देश (उदाहरण के लिए, पायथन) बरकरार नहीं रखा गया है। इनलाइन कोड रूपांतरण में भी समस्याएं हैं।

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


## 6. Code

### Inline Code

Use backticks for inline code: print("Hello, world!")

### Code Block

Use triple backticks for code blocks:

```
def greet(name):
return f"Hello, {name}!"
print(greet("Markdown"))
```




बहु-पंक्ति पाठ

बहु-पंक्ति पाठ के लिए, पंक्ति विराम उसी प्रकार संरक्षित किए जाते हैं जैसे वे मूल पीडीएफ में दिखाई देते हैं।

How to Convert PDFs to Markdown Using PyMuPDFM and Its Evaluation


Markdown is a lightweight and versatile markup language favored by developers, writers, and bloggers alike

due to its simplicity in formatting text, enabling users to create readable and well-structured documents—

whether for documentation, blog posts, or articles—without the complexity of HTML, while also offering the

ability to convert content seamlessly into other formats like HTML, PDF, and even slideshows, making it an

ideal choice for projects that require both clarity and flexibility in presentation.




निष्कर्ष

सूचियों और लिंक को सटीक रूप से परिवर्तित करने में चुनौतियों के बावजूद, PyMuPDF4LLM पीडीएफ को मार्कडाउन में परिवर्तित करने के लिए एक उपयोगी उपकरण है। यह बाहरी भाषा मॉडल की आवश्यकता के बिना स्थानीय रूप से काम कर सकता है, जिससे यह उन वातावरणों के लिए उपयुक्त हो जाता है जहां इंटरनेट पहुंच अनुपलब्ध है।

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://dev.to/m_sea_bass/how-to-convert-pdfs-to-markdown-using-pymupdf4llm-and-its-evaluation-kg6?1 यदि कोई उल्लंघन है, तो कृपया स्टडी_गोलंग से संपर्क करें @163.com हटाएं
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3