Извлечение структурированных таблиц из PDF-файлов
Извлечение структурированных таблиц из PDF-документов может оказаться сложной задачей, особенно для файлов, не содержащих изображений. Вот подробное руководство, которое поможет вам решить эту проблему:
Решения без оптического распознавания символов
Маршрут PDF -> HTML -> Извлечь таблицу может быть ненадежным, особенно с документами. содержащие неанглийские шрифты. Вот несколько альтернатив:
1. Ручное извлечение
Используйте такое программное обеспечение, как Adobe Acrobat или Foxit, чтобы вручную выбрать ячейки таблицы и скопировать их в электронную таблицу. Это хорошо работает для небольших таблиц с простой структурой.
2. Преобразователи PDF в XML
Такие инструменты, как PDFBox, могут извлекать данные таблицы в формат XML, который можно далее обрабатывать для извлечения структурированных данных.
3. Пользовательское сопоставление шаблонов
Если PDF-файл генерируется последовательно, вы можете разработать собственные шаблоны для идентификации ячеек таблицы и извлечения их содержимого. Однако это требует глубокого понимания структуры PDF.
Ограничения предоставленного PDF
У конкретного PDF-файла, который вы упомянули, есть две существенные проблемы:
Рекомендация
Учитывая эти ограничения, извлечение структурированных таблиц может быть невозможным из предоставленного PDF-файла без методов оптического распознавания символов. Вместо этого вы можете рассмотреть альтернативные методы, такие как запрос исходных данных таблицы у создателя документа или использование других решений OCR.
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3