Извлечение изображений в собственном разрешении из PDF-файлов в Python
Для точного извлечения изображений из PDF-файлов важно сохранять исходное разрешение и формат файла изображения. PyMuPDF предлагает удобное решение этой задачи.
Для начала импортируйте модуль PyMuPDF и откройте целевой PDF-файл:
import fitz
doc = fitz.open("file.pdf")
Пройдитесь по страницам и извлеките изображения с помощью getPageImageList:
for i in range(len(doc)):
for img in doc.getPageImageList(i):
xref = img[0]
pix = fitz.Pixmap(doc, xref)
В зависимости от типа изображения запишите изображение в формате PNG или преобразуйте изображения CMYK в RGB перед записью в формате PNG:
if pix.n Вот дополнительные ресурсы для изучения:
- [Документация по извлечению изображений PyMuPDF]( https://pymupdf.readthedocs.io/en/latest/image-extraction.html)
- [Улучшенное извлечение изображений FitZ для FitZ 1.19.6] (https://stackoverflow.com/a/74345380)
С помощью этого решения Python вы можете эффективно извлекать изображения из PDF-файлов, сохраняя их исходное разрешение и формат, обеспечивая точное воспроизведение и анализ.
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3