从 PDF 中提取结构化表格
从 PDF 文档中提取结构化表格可能是一项具有挑战性的任务,尤其是对于非图像文件。以下是帮助您解决此问题的综合指南:
非 OCR 解决方案
PDF -> HTML -> 提取表路径可能不可靠,尤其是对于文档包含非英文字体。以下是一些替代方案:
1。手动提取
使用 Adobe Acrobat 或 Foxit 等软件手动选择表格单元格并将其复制到电子表格中。这对于结构简单的小表非常有效。
2。 PDF 到 XML 转换器
像 PDFBox 这样的工具可以将表格数据提取为 XML 格式,可以进一步处理以提取结构化数据。
3.自定义模式匹配
如果生成的 PDF 一致,您可以开发自定义模式来识别表格单元格并提取其内容。然而,这需要对PDF结构有深入的了解。
提供的PDF的局限性
您提到的特定PDF有两个重大挑战:
推荐
鉴于这些限制,可能无法提取结构化表格从提供的 PDF 中获取,无需 OCR 技术。相反,您可以考虑其他方法,例如向文档创建者请求原始表格数据或寻求其他 OCR 解决方案。
免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。
Copyright© 2022 湘ICP备2022001581号-3