«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > программирование > Можно ли извлечь таблицы из этого PDF-файла без распознавания текста?

Можно ли извлечь таблицы из этого PDF-файла без распознавания текста?

Опубликовано 3 ноября 2024 г.
Просматривать:543

Can Tables Be Extracted from This PDF Without OCR?

Извлечение структурированных таблиц из PDF-файлов

Извлечение структурированных таблиц из PDF-документов может оказаться сложной задачей, особенно для файлов, не содержащих изображений. Вот подробное руководство, которое поможет вам решить эту проблему:

Решения без оптического распознавания символов

Маршрут PDF -> HTML -> Извлечь таблицу может быть ненадежным, особенно с документами. содержащие неанглийские шрифты. Вот несколько альтернатив:

1. Ручное извлечение

Используйте такое программное обеспечение, как Adobe Acrobat или Foxit, чтобы вручную выбрать ячейки таблицы и скопировать их в электронную таблицу. Это хорошо работает для небольших таблиц с простой структурой.

2. Преобразователи PDF в XML

Такие инструменты, как PDFBox, могут извлекать данные таблицы в формат XML, который можно далее обрабатывать для извлечения структурированных данных.

3. Пользовательское сопоставление шаблонов

Если PDF-файл генерируется последовательно, вы можете разработать собственные шаблоны для идентификации ячеек таблицы и извлечения их содержимого. Однако это требует глубокого понимания структуры PDF.

Ограничения предоставленного PDF

У конкретного PDF-файла, который вы упомянули, есть две существенные проблемы:

  • Отсутствуют данные таблицы: PDF-файл не содержит явных табличных данных, что затрудняет извлечение структурированной информации без интерпретации человеком.
  • Проблема с кодировкой: PDF-файл использует шрифты, которые ошибочно утверждают, что используют WinAnsiEncoding, что приводит к повреждению извлечения текста.

Рекомендация

Учитывая эти ограничения, извлечение структурированных таблиц может быть невозможным из предоставленного PDF-файла без методов оптического распознавания символов. Вместо этого вы можете рассмотреть альтернативные методы, такие как запрос исходных данных таблицы у создателя документа или использование других решений OCR.

Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3