PyMuPDF4LLM 是一個設計用於將 PDF 轉換為 Markdown 格式的函式庫。在這裡,我將分享我測試這個庫的經驗。
首先使用下列指令安裝庫:
pip install pymupdf4llm
基本用法非常簡單,只需三行程式碼即可將 PDF 轉換為 Markdown:
import pymupdf4llm md_text = pymupdf4llm.to_markdown("input.pdf") print(md_text)
您可以指定參數來調整內容的擷取方式。
預設情況下,整個 PDF 會轉換為單一文字輸出。但是,您可以透過指定 page_chunks=True 來逐頁擷取文字。
md_text = pymupdf4llm.to_markdown("input.pdf", page_chunks=True)
要將映像提取為文件,請使用 write_images=True 選項:
md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)
也可以使用base64編碼直接在Markdown中嵌入圖像:
md_text = pymupdf4llm.to_markdown("input.pdf", embed_images=True)
為了進行測試,使用了各種具有不同 Markdown 元素的 PDF。
標題已正確轉換為 Markdown 格式。這是結果的一部分:
# Sample Markdown Guide This is a sample markdown file that includes various features for quick reference. ## 1. Headers ... ## 3. Lists
粗體和斜體格式也正確轉換:
**Bold: **Bold Text**** _Italic: *Italic Text*_ **_Bold and Italic: ***Bold and Italic***_**
第一層有序列表轉換沒有問題,但嵌套列表和無序列表轉換不準確。
## 3. Lists ### Unordered List Item 1 Item 2 Sub-item 1 Sub-item 2 ### Ordered List 1. First item 2. Second item 1. Sub-item A 2. Sub-item B
鏈接的URL被提取,但包含鏈接的整行變成了超鏈接,偏離了原始格式。
## 4. Links and Images [You can add links using [Link Text](URL).](https://www.example.com/)
預設不會提取映像,但可以使用 write_images=True 將映像保存在本地。
md_text = pymupdf4llm.to_markdown("input.pdf", write_images=True)
然後在 Markdown 中引用已儲存的圖像,如下所示:
### Image Example
![](input.pdf-1-0.png)
沒有垂直邊框的簡單表格無法準確轉換(可能是因為不明確的列邊界導致表格被視為純文字)。
## 5. Tables
**Column 1** **Column 2** **Column 3**
Row 1 Data A Data B
Row 2 Data C Data D
程式碼區塊已正確轉換,但語言規範(例如 python)未保留。內聯代碼轉換也存在問題。
## 6. Code
### Inline Code
Use backticks for inline code: print("Hello, world!")
### Code Block
Use triple backticks for code blocks:
```
def greet(name):
return f"Hello, {name}!"
print(greet("Markdown"))
```
對於多行文本,換行符號將以原始 PDF 中的顯示方式保留。
Markdown is a lightweight and versatile markup language favored by developers, writers, and bloggers alike
due to its simplicity in formatting text, enabling users to create readable and well-structured documents—
whether for documentation, blog posts, or articles—without the complexity of HTML, while also offering the
ability to convert content seamlessly into other formats like HTML, PDF, and even slideshows, making it an
ideal choice for projects that require both clarity and flexibility in presentation.
儘管在準確轉換清單和連結方面存在挑戰,PyMuPDF4LLM 是將 PDF 轉換為 Markdown 的有用工具。它可以在本地工作,無需外部語言模型,適合無法訪問互聯網的環境。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3