"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > OCR 없이 이 PDF에서 표를 추출할 수 있습니까?

OCR 없이 이 PDF에서 표를 추출할 수 있습니까?

2024-11-03에 게시됨
검색:237

Can Tables Be Extracted from This PDF Without OCR?

PDF에서 구조화된 테이블 추출

PDF 문서에서 구조화된 테이블을 추출하는 것은 어려운 작업일 수 있으며, 특히 이미지가 아닌 파일의 경우 더욱 그렇습니다. 다음은 이 문제를 해결하는 데 도움이 되는 포괄적인 가이드입니다.

비 OCR 솔루션

PDF -> HTML -> 테이블 추출 경로는 특히 문서의 경우 신뢰할 수 없을 수 있습니다. 영어가 아닌 글꼴이 포함되어 있습니다. 다음은 몇 가지 대안입니다.

1. 수동 추출

Adobe Acrobat 또는 Foxit과 같은 소프트웨어를 사용하여 표 셀을 수동으로 선택하고 스프레드시트에 복사합니다. 이는 구조가 단순한 작은 테이블에 적합합니다.

2. PDF-XML 변환기

PDFBox와 같은 도구는 테이블 데이터를 XML 형식으로 추출할 수 있으며, 이는 추가 처리를 통해 구조화된 데이터를 추출할 수 있습니다.

3. 사용자 정의 패턴 일치

PDF가 일관되게 생성되면 사용자 정의 패턴을 개발하여 표 셀을 식별하고 해당 내용을 추출할 수 있습니다. 그러나 이를 위해서는 PDF 구조에 대한 깊은 이해가 필요합니다.

제공된 PDF의 제한 사항

귀하가 언급한 특정 PDF에는 두 가지 중요한 과제가 있습니다.

  • 테이블 데이터 누락: PDF에 명시적인 테이블 데이터가 포함되어 있지 않아 사람의 해석 없이 구조화된 정보를 추출하기 어렵습니다.
  • 인코딩 문제: PDF WinAnsiEncoding을 사용한다고 허위 주장하는 글꼴을 사용하므로 텍스트 추출이 손상됩니다.

권장 사항

이러한 제한 사항을 고려하면 구조화된 테이블을 추출하는 것이 불가능할 수 있습니다. OCR 기술 없이 제공된 PDF에서. 대신 문서 작성자에게 원본 테이블 데이터를 요청하거나 다른 OCR 솔루션을 추구하는 등의 대체 방법을 고려할 수 있습니다.

최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3