Extrahieren von Bildern mit nativer Auflösung aus PDFs in Python
Für eine genaue Bildextraktion aus PDFs ist es wichtig, die ursprüngliche Auflösung und das Originalformat beizubehalten Bilder. PyMuPDF bietet eine praktische Lösung für diese Aufgabe.
Importieren Sie zunächst das PyMuPDF-Modul und öffnen Sie die Ziel-PDF-Datei:
import fitz
doc = fitz.open("file.pdf")
Durchlaufen Sie die Seiten und extrahieren Sie die Bilder mit getPageImageList:
for i in range(len(doc)):
for img in doc.getPageImageList(i):
xref = img[0]
pix = fitz.Pixmap(doc, xref)
Schreiben Sie das Bild je nach Bildtyp als PNG oder konvertieren Sie CMYK-Bilder in RGB, bevor Sie es als PNG schreiben:
if pix.n Hier sind zusätzliche Ressourcen zum Erkunden:
- [PyMuPDF Image Extraction Documentation]( https://pymupdf.readthedocs.io/en/latest/image-extraction.html)
- [Verbesserte FitZ-Bildextraktion für FitZ 1.19.6](https://stackoverflow.com/a/74345380)
Mit dieser Python-Lösung können Sie Bilder effizient aus PDFs extrahieren und dabei ihre native Auflösung und ihr natives Format beibehalten, um eine genaue Reproduktion und Analyse zu gewährleisten.
Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.
Copyright© 2022 湘ICP备2022001581号-3