PDF에서 구조화된 테이블 추출
PDF 문서에서 구조화된 테이블을 추출하는 것은 어려운 작업일 수 있으며, 특히 이미지가 아닌 파일의 경우 더욱 그렇습니다. 다음은 이 문제를 해결하는 데 도움이 되는 포괄적인 가이드입니다.
비 OCR 솔루션
PDF -> HTML -> 테이블 추출 경로는 특히 문서의 경우 신뢰할 수 없을 수 있습니다. 영어가 아닌 글꼴이 포함되어 있습니다. 다음은 몇 가지 대안입니다.
1. 수동 추출
Adobe Acrobat 또는 Foxit과 같은 소프트웨어를 사용하여 표 셀을 수동으로 선택하고 스프레드시트에 복사합니다. 이는 구조가 단순한 작은 테이블에 적합합니다.
2. PDF-XML 변환기
PDFBox와 같은 도구는 테이블 데이터를 XML 형식으로 추출할 수 있으며, 이는 추가 처리를 통해 구조화된 데이터를 추출할 수 있습니다.
3. 사용자 정의 패턴 일치
PDF가 일관되게 생성되면 사용자 정의 패턴을 개발하여 표 셀을 식별하고 해당 내용을 추출할 수 있습니다. 그러나 이를 위해서는 PDF 구조에 대한 깊은 이해가 필요합니다.
제공된 PDF의 제한 사항
귀하가 언급한 특정 PDF에는 두 가지 중요한 과제가 있습니다.
권장 사항
이러한 제한 사항을 고려하면 구조화된 테이블을 추출하는 것이 불가능할 수 있습니다. OCR 기술 없이 제공된 PDF에서. 대신 문서 작성자에게 원본 테이블 데이터를 요청하거나 다른 OCR 솔루션을 추구하는 등의 대체 방법을 고려할 수 있습니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3