"إذا أراد العامل أن يؤدي عمله بشكل جيد، فعليه أولاً أن يشحذ أدواته." - كونفوشيوس، "مختارات كونفوشيوس. لو لينجونج"
الصفحة الأمامية > برمجة > كيفية استخراج المحتوى من الملفات الموجودة في أرشيف مضغوط باستخدام Java وApache Tika؟

كيفية استخراج المحتوى من الملفات الموجودة في أرشيف مضغوط باستخدام Java وApache Tika؟

تم النشر بتاريخ 2024-11-08
تصفح:343

How to Extract Content from Files within a Zip Archive Using Java and Apache Tika?

كيفية قراءة واستخراج المحتوى من الملفات داخل أرشيف مضغوط باستخدام Java و Apache Tika

تحقيق مهمة القراءة واستخراج المحتوى من تتضمن الملفات الموجودة في أرشيف مضغوط باستخدام Java وApache Tika بضع خطوات أساسية.

1. تهيئة الإدخال

ابدأ بإنشاء دفق إدخال من الملف المراد معالجته:

InputStream input = new FileInputStream(file);

2. تحليل أرشيف Zip

قم بإنشاء ZipInputStream لتحليل أرشيف Zip والحصول على ZipEntries الفردية:

ZipInputStream zip = new ZipInputStream(input);

3. استخراج المحتوى بناءً على نوع الملف

قم بالتكرار من خلال ZipEntries، مع تحديد أنواع الملفات المدعومة (على سبيل المثال، .txt، .pdf، .docx):

while (entry != null) {
    if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
        // Process the file
    }
    entry = zip.getNextEntry();
}

4. تحليل المحتوى باستخدام Apache Tika

استخدم Apache Tika لتحليل محتوى الملفات المحددة:

BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());

5. استخراج المحتوى النصي

تحويل المحتوى الذي تم تحليله إلى نص عادي لمزيد من المعالجة:

System.out.println("Apache Tika - Converted input string : "   textHandler.toString());

الخلاصةباتباع هذه الخطوات، يمكنك قراءة المحتوى واستخراجه بكفاءة من ملفات متعددة داخل أرشيف مضغوط باستخدام Java وApache Tika. تعتبر هذه الوظيفة مفيدة بشكل خاص لمعالجة الأرشيفات التي تحتوي على بيانات نصية أو مستندة إلى المستندات.

أحدث البرنامج التعليمي أكثر>

تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.

Copyright© 2022 湘ICP备2022001581号-3