كيفية استخراج النص من ملفات PDF باستخدام PDFMiner API المحدث في بايثون؟

الصفحة الأمامية > برمجة > كيفية استخراج النص من ملفات PDF باستخدام PDFMiner API المحدث في بايثون؟

كيفية استخراج النص من ملفات PDF باستخدام PDFMiner API المحدث في بايثون؟

تم النشر بتاريخ 2024-11-09

تصفح:411

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

استخراج النص من ملفات PDF باستخدام PDFMiner في Python

عند العمل مع مستندات PDF، يمكن أن يكون استخراج النص مهمة حاسمة. تعمل مكتبة PDFMiner، وهي مكتبة Python، على تبسيط هذه العملية، مما يتيح للمطورين تحليل واستخراج النص من ملفات PDF.

واجهة برمجة تطبيقات PDFMiner المحدثة والأمثلة القديمة

تم تحديث التحديثات الأخيرة لـ PDFMiner أدخلت تغييرات على واجهة برمجة التطبيقات الخاصة بها، مما جعل العديد من الأمثلة الموجودة قديمة. يمكن أن يؤدي الانتقال إلى الإصدار الأحدث إلى ترك المطورين في حيرة، وغير متأكدين من كيفية تنفيذ المهام الأساسية مثل استخراج النص.

مثال للتنفيذ

لمعالجة هذه المشكلة، دعنا نستكشف طريقة عمل مثال يوضح كيفية استخراج النص من ملف PDF باستخدام مكتبة PDFMiner الحالية:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

يوفر هذا الرمز طريقة شاملة لاستخراج النص، تغطي كافة الخطوات الضرورية. تأخذ وظيفة Convert_pdf_to_txt مسار ملف كمدخل وتتعامل مع عملية فتح الملف، وتهيئة المحلل اللغوي للمستند، وتحويل محتوى الصفحة إلى سلسلة نصية.

يوضح هذا المثال بناء جملة PDFMiner المحدث، مما يلغي الحاجة إلى رمز عفا عليه الزمن. لقد تم اختباره بدقة والتحقق من صحته للاستخدام مع أحدث إصدار من PDFMiner.

بيان الافراج أعيد طبع هذه المقالة على: 1729146198 في حالة وجود أي انتهاك، يرجى الاتصال بـ [email protected] لحذفها

أحدث البرنامج التعليمي أكثر>

هل يمكنني تعديل أساليب الفصل دون الوراثة في PHP؟
هل يمكنني تصحيح فئة بدون وراثة؟ قد تواجه مواقف تحتاج فيها إلى تعديل فئة أو أساليبها دون خيار الميراث النموذجي. خذ على سبيل المثال الفئة التالية:...

برمجة تم النشر بتاريخ 2024-11-17
كيفية تحديد حجم منطقة النص تلقائيًا باستخدام JavaScript خالص؟
الارتفاع التلقائي لمنطقة النص يهدف هذا السؤال إلى إزالة شريط التمرير لمنطقة النص وضبط ارتفاعه ليتناسب مع المحتوى الموجود بداخله. يتم توفير حل ب...

برمجة تم النشر بتاريخ 2024-11-17
متى يكون استدعاء المدمر يدويًا ممارسة مشروعة؟
متى يكون استدعاء المدمر يدويًا أمرًا مبررًا؟ غالبًا ما يتم التأكيد على فكرة أن استدعاء المدمر يدويًا يشير إلى تصميم معيب. ومع ذلك، فإن هذا يطر...

برمجة تم النشر بتاريخ 2024-11-17
صفيف
الطرق هي fns التي يمكن استدعاؤها على الكائنات المصفوفات هي كائنات، وبالتالي فهي تحتوي أيضًا على طرق في JS. الشريحة (البدء): استخراج جزء من الم...

برمجة تم النشر بتاريخ 2024-11-17
$لماذا أحصل على \"InterfaceError (0, \'\')\" في استعلامات قاعدة بيانات Django الخاصة بي؟$
لماذا أحصل على \"InterfaceError (0, \'\')\" في استعلامات قاعدة بيانات Django الخاصة بي؟
مواجهة خطأ في الواجهة (0، '') في تنفيذ استعلام Django قد يواجه مستخدمو Django خطأ في الواجهة (0، '') مستمر "خطأ عند محاولة...

برمجة تم النشر بتاريخ 2024-11-17
ما وراء عبارات "if": في أي مكان آخر يمكن استخدام نوع ذو تحويل "bool" صريح بدون الإرسال؟
التحويل السياقي إلى منطقي مسموح بدون إرسال يحدد فصلك تحويلًا صريحًا إلى منطقي، مما يتيح لك استخدام مثيله 't' مباشرة في العبارات الشرطية....

برمجة تم النشر بتاريخ 2024-11-17
$كيفية حل مشكلة \"فشل الإنشاء: go: parsing /models/go.mod: open /models/go.mod: لا يوجد مثل هذا الملف أو الدليل\" خطأ عند نشر وظائف Go Cloud مع وحدات Go؟$
كيفية حل مشكلة \"فشل الإنشاء: go: parsing /models/go.mod: open /models/go.mod: لا يوجد مثل هذا الملف أو الدليل\" خطأ عند نشر وظائف Go Cloud مع وحدات Go؟
خطأ في نشر وظيفة Google Cloud مع وجود خطأ في وحدات Go عند محاولة نشر وظيفة Google Cloud في Go 1.11 باستخدام وحدات Go، قد يواجه المطورون مشكلة ا...

برمجة تم النشر بتاريخ 2024-11-17
لماذا يقوم My Golang `exec.Command` بإرجاع "حالة الخروج 1"؟
كيفية تحديد سبب خطأ "حالة الخروج 1" في exec.Command الخاص بـ Golang عند تنفيذ طريقة exec.Command في Golang ، قد يكون تلقي خطأ "...

برمجة تم النشر بتاريخ 2024-11-17
كيفية تحديث كائن متداخل في الحالة باستخدام "setState"؟
تحديث الحالة [1] في الحالة باستخدام setState في هذه الحالة، أنت تحاول تحديث كائن داخل كائن في ولايتك باستخدام setState. لتحديث الحالة بشكل صحي...

برمجة تم النشر بتاريخ 2024-11-17
ماذا حدث لموازنة الأعمدة في الإصدار التجريبي من Bootstrap 4؟
الإصدار التجريبي من Bootstrap 4: إزالة واستعادة إزاحة الأعمدة قدم Bootstrap 4، في إصداره التجريبي 1، تغييرات مهمة في الطريقة تم تعويض الأعمدة....

برمجة تم النشر بتاريخ 2024-11-17
ربط PHP بقواعد البيانات: MySQL للمبتدئين
من المهم جدًا الاتصال بقاعدة بيانات MySQL في PHP. الخطوات هي كما يلي: قم بتثبيت ملحق MySQL. استخدم الدالة mysqli_connect() لإنشاء اتصال. تتضمن المعلم...

برمجة تم النشر بتاريخ 2024-11-17
لماذا تفشل رؤية CSS: مخفية في تأثيرات التحويم؟
كشف الغموض: لماذا تفشل رؤية CSS عند التحويم توفر رؤية CSS طريقة ملائمة لمعالجة رؤية العنصر، ولكن في بعض الأحيان تتعثر حواجز الطرق غير المتوقعة...

برمجة تم النشر بتاريخ 2024-11-17
متى يتم استخدام parseInt() و Number() لتحويل السلسلة إلى رقم في JavaScript؟
تحويل السلاسل إلى أرقام باستخدام parseInt () و Number () عند تحويل السلاسل إلى أرقام في JavaScript، هناك وظيفتان شائعتان الاستخدام هما parseIn...

برمجة تم النشر بتاريخ 2024-11-17
البند تجنب الاستخدام غير الضروري للاستثناءات المحددة
تعتبر الاستثناءات المحددة أداة قوية في Java، لأنها تجبر المبرمج على التعامل مع الظروف الاستثنائية، مما يزيد من موثوقية التعليمات البرمجية. ومع ذلك...

برمجة تم النشر بتاريخ 2024-11-17
كيف يمكنني العثور على المستخدمين الذين لديهم أعياد ميلاد اليوم باستخدام MySQL؟
كيفية التعرف على المستخدمين الذين لديهم أعياد ميلاد اليوم باستخدام MySQL تحديد ما إذا كان اليوم هو عيد ميلاد المستخدم باستخدام MySQL يتضمن الب...

برمجة تم النشر بتاريخ 2024-11-17