كيفية قراءة واستخراج المحتوى من الملفات داخل أرشيف مضغوط باستخدام Java و Apache Tika
تحقيق مهمة القراءة واستخراج المحتوى من تتضمن الملفات الموجودة في أرشيف مضغوط باستخدام Java وApache Tika بضع خطوات أساسية.
1. تهيئة الإدخال
ابدأ بإنشاء دفق إدخال من الملف المراد معالجته:
InputStream input = new FileInputStream(file);
2. تحليل أرشيف Zip
قم بإنشاء ZipInputStream لتحليل أرشيف Zip والحصول على ZipEntries الفردية:
ZipInputStream zip = new ZipInputStream(input);
3. استخراج المحتوى بناءً على نوع الملف
قم بالتكرار من خلال ZipEntries، مع تحديد أنواع الملفات المدعومة (على سبيل المثال، .txt، .pdf، .docx):
while (entry != null) {
if (entry.getName().endsWith(".txt") || entry.getName().endsWith(".pdf") || entry.getName().endsWith(".docx")) {
// Process the file
}
entry = zip.getNextEntry();
}
4. تحليل المحتوى باستخدام Apache Tika
استخدم Apache Tika لتحليل محتوى الملفات المحددة:
BodyContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, textHandler, metadata, new ParseContext());
5. استخراج المحتوى النصي
تحويل المحتوى الذي تم تحليله إلى نص عادي لمزيد من المعالجة:
System.out.println("Apache Tika - Converted input string : " textHandler.toString());
الخلاصةباتباع هذه الخطوات، يمكنك قراءة المحتوى واستخراجه بكفاءة من ملفات متعددة داخل أرشيف مضغوط باستخدام Java وApache Tika. تعتبر هذه الوظيفة مفيدة بشكل خاص لمعالجة الأرشيفات التي تحتوي على بيانات نصية أو مستندة إلى المستندات.
تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3