從PDF 中提取結構化表格
從PDF 文件中提取結構化表格可能是一項具有挑戰性的任務,尤其是對於非圖像檔案。以下是幫助您解決此問題的綜合指南:
非OCR 解決方案
PDF -> HTML -> 提取表路徑可能不可靠,尤其是對於文檔包含非英文字體。以下是一些替代方案:
1。手動提取
使用 Adobe Acrobat 或 Foxit 等軟體手動選擇表格單元格並將其複製到電子表格中。這對於結構簡單的小表非常有效。
2。 PDF 到 XML 轉換器
像 PDFBox 這樣的工具可以將表格資料提取為 XML 格式,可以進一步處理以提取結構化資料。
3.自訂模式匹配
如果產生的 PDF 一致,您可以開發自訂模式來識別表格單元格並提取其內容。然而,這需要對PDF結構有深入的了解。
提供的PDF的限制
您提到的特定PDF有兩個重大挑戰:
推薦
鑑於這些限制,可能無法提取結構化表格從提供的 PDF 中獲取,無需 OCR 技術。相反,您可以考慮其他方法,例如向文件建立者請求原始表格資料或尋求其他 OCR 解決方案。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3