OCR 없이 이 PDF에서 표를 추출할 수 있습니까? - 프로그램 작성 - luping.net

"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.

온라인 도구

소프트웨어 튜토리얼

사이트 탐색

프로그램 작성

첫 장 > 프로그램 작성 > OCR 없이 이 PDF에서 표를 추출할 수 있습니까?

OCR 없이 이 PDF에서 표를 추출할 수 있습니까?

2024-11-03에 게시됨

검색:237

Can Tables Be Extracted from This PDF Without OCR?

PDF에서 구조화된 테이블 추출

PDF 문서에서 구조화된 테이블을 추출하는 것은 어려운 작업일 수 있으며, 특히 이미지가 아닌 파일의 경우 더욱 그렇습니다. 다음은 이 문제를 해결하는 데 도움이 되는 포괄적인 가이드입니다.

비 OCR 솔루션

PDF -> HTML -> 테이블 추출 경로는 특히 문서의 경우 신뢰할 수 없을 수 있습니다. 영어가 아닌 글꼴이 포함되어 있습니다. 다음은 몇 가지 대안입니다.

1. 수동 추출

Adobe Acrobat 또는 Foxit과 같은 소프트웨어를 사용하여 표 셀을 수동으로 선택하고 스프레드시트에 복사합니다. 이는 구조가 단순한 작은 테이블에 적합합니다.

2. PDF-XML 변환기

PDFBox와 같은 도구는 테이블 데이터를 XML 형식으로 추출할 수 있으며, 이는 추가 처리를 통해 구조화된 데이터를 추출할 수 있습니다.

3. 사용자 정의 패턴 일치

PDF가 일관되게 생성되면 사용자 정의 패턴을 개발하여 표 셀을 식별하고 해당 내용을 추출할 수 있습니다. 그러나 이를 위해서는 PDF 구조에 대한 깊은 이해가 필요합니다.

제공된 PDF의 제한 사항

귀하가 언급한 특정 PDF에는 두 가지 중요한 과제가 있습니다.

테이블 데이터 누락: PDF에 명시적인 테이블 데이터가 포함되어 있지 않아 사람의 해석 없이 구조화된 정보를 추출하기 어렵습니다.
인코딩 문제: PDF WinAnsiEncoding을 사용한다고 허위 주장하는 글꼴을 사용하므로 텍스트 추출이 손상됩니다.

권장 사항

이러한 제한 사항을 고려하면 구조화된 테이블을 추출하는 것이 불가능할 수 있습니다. OCR 기술 없이 제공된 PDF에서. 대신 문서 작성자에게 원본 테이블 데이터를 요청하거나 다른 OCR 솔루션을 추구하는 등의 대체 방법을 고려할 수 있습니다.

최신 튜토리얼 더>

CSS 해킹으로 IE11 브라우저를 정확하게 잠그는 방법은 무엇입니까?
이 미디어 쿼리 내에서 *::-MS-Backdrop Selector를 사용하여 IE 11에 특별히 스타일을 적용 할 수 있습니다. 이 선택기는 IE 11의 특정 초점 상태에 의해 생성 된 배경 요소를 대상으로합니다. 예를 들어 다음 CSS 코드는 IE 11을 대...

프로그램 작성 2025-04-07에 게시되었습니다
PHP를 사용하여 Blob (이미지)을 MySQL에 올바르게 삽입하는 방법은 무엇입니까?
문제 $ sql = "삽입 ImagesTore (imageId, image) 값 ( '$ this- & gt; image_id', 'file_get_contents ($ tmp_image)'; 결과적으로 실제 이...

프로그램 작성 2025-04-07에 게시되었습니다
순수한 CS로 여러 끈적 끈적한 요소를 서로 쌓을 수 있습니까?
순수한 CSS에서 서로 위에 여러 개의 끈적 끈적 요소가 쌓일 수 있습니까? 원하는 동작을 볼 수 있습니다. 여기 : https://webthemez.com/demo/sticky-multi-header-scroll/index.html Java...

프로그램 작성 2025-04-07에 게시되었습니다
PostgreSQL의 각 고유 식별자에 대한 마지막 행을 효율적으로 검색하는 방법은 무엇입니까?
postgresql : 각각의 고유 식별자에 대한 마지막 행을 추출하는 select distinct on (id) id, date, another_info from the_table order by id, date desc; id ...

프로그램 작성 2025-04-07에 게시되었습니다
`JSON '패키지를 사용하여 이동하는 JSON 어레이를 구문 분석하는 방법은 무엇입니까?
JSON 어레이를 Parsing JSON 패키지 문제 : JSON 패키지를 사용하여 어레이를 나타내는 JSON 스트링을 어떻게 구문 분석 할 수 있습니까? 예 : type JsonType struct { Array []string ...

프로그램 작성 2025-04-07에 게시되었습니다
PHP를 사용하여 XML 파일에서 속성 값을 효율적으로 검색하려면 어떻게해야합니까?
옵션> 1 varnum "varnum"을 복원 할 수 있습니다. stumped. 이 기능은 XML 요소의 속성에 대한 액세스를 연관 배열로 제공합니다. $ xml = simplexml_load_file ($ file);...

프로그램 작성 2025-04-07에 게시되었습니다
$\ "일반 오류 : 2006 MySQL Server가 사라졌습니다 \"데이터를 삽입 할 때?$
\ "일반 오류 : 2006 MySQL Server가 사라졌습니다 \"데이터를 삽입 할 때?
를 해결하는 방법 "일반 오류 : 2006 MySQL Server가 사라졌습니다. 이 오류는 일반적으로 MySQL 구성의 두 변수 중 하나로 인해 서버에 대한 연결이 손실 될 때 발생합니다. 솔루션 : 이 오류를 해결하기위한 키는 Wait_Ti...

프로그램 작성 2025-04-07에 게시되었습니다
Java는 여러 반환 유형을 허용합니까 : 일반적인 방법을 자세히 살펴보십시오.
public 목록 getResult (문자열 s); 여기서 foo는 사용자 정의 클래스입니다. 이 방법 선언은 두 가지 반환 유형을 자랑하는 것처럼 보입니다. 목록과 E. 그러나 이것이 사실인가? 일반 방법 : 미스터리 메소드는 단일...

프로그램 작성 2025-04-07에 게시되었습니다
교체 지시문을 사용하여 GO MOD에서 모듈 경로 불일치를 해결하는 방법은 무엇입니까?
[ github.com/coreos/coreos/client github.com/coreos/etcd/client.test imports github.com/coreos/etcd/integration에 의해 테스트 된 Echoed 메시지에 의해 입증 된 바와...

프로그램 작성 2025-04-07에 게시되었습니다
파이썬에서 문자열에서 이모티콘을 제거하는 방법 : 일반적인 오류 수정에 대한 초보자 가이드?
Codecs 가져 오기. 가져 오기 re text = codecs.decode ( '이 개 \ u0001f602'.encode ('utf-8 '),'utf-8 ') 인쇄 (텍스트) # 이모티콘으로 emoji_patter...

프로그램 작성 2025-04-07에 게시되었습니다
Google API에서 최신 JQuery 라이브러리를 검색하는 방법은 무엇입니까?
https://code.jquery.com/jquery-latest.min.js (jQuery Hosted, Minified) https://code.jquery.com/jquery-latest.js (JQuery Hosted, Hosted, 비 압축) 압축...

프로그램 작성 2025-04-07에 게시되었습니다
유효한 코드에도 불구하고 PHP의 입력을 캡처하는 사후 요청이없는 이유는 무엇입니까?
post request 오작동 주소 php action='' action = "

프로그램 작성 2025-04-07에 게시되었습니다
Visual Studio 2012의 DataSource 대화 상자에 MySQL 데이터베이스를 추가하는 방법은 무엇입니까?
MySQL 커넥터 v.6.5.4가 설치되어 있지만 Entity 프레임 워크의 DataSource 대화 상자에 MySQL 데이터베이스를 추가 할 수 없습니다. 이를 해결하기 위해 MySQL 용 공식 Visual Studio 2012 통합은 MySQL 커넥터 v.6....

프로그램 작성 2025-04-07에 게시되었습니다
FormData ()로 여러 파일 업로드를 처리하려면 어떻게해야합니까?
); 그러나이 코드는 첫 번째 선택된 파일 만 처리합니다. 파일 : var files = document.getElementById ( 'filetOUpload'). 파일; for (var x = 0; x

프로그램 작성 2025-04-07에 게시되었습니다
Object-Fit : IE 및 Edge에서 표지가 실패, 수정 방법?
이 문제를 해결하기 위해 문제를 해결하는 영리한 CSS 솔루션을 사용합니다. -50%); 높이 : 100%; 너비 : 자동; // 수직 블록의 경우 높이 : 자동; 너비 : 100%; // 수평 블록의 경우 이 조합은 절대 포지셔닝을 사용하여 중앙에서 ...

프로그램 작성 2025-04-07에 게시되었습니다

분류 더>

일본어를 배우다 한국어를 배우다 중국어를 배우다 외국어를 배우다 게임 일반적인 문제 기술 주변기기 일체 포함 소프트웨어 튜토리얼 프로그램 작성 기사

중국어 공부

1 "걷다"를 중국어로 어떻게 말하나요? 走路 중국어 발음, 走路 중국어 학습
2 "비행기를 타다"를 중국어로 어떻게 말하나요? 坐飞机 중국어 발음, 坐飞机 중국어 학습
3 "기차를 타다"를 중국어로 어떻게 말하나요? 坐火车 중국어 발음, 坐火车 중국어 학습
4 "버스를 타다"를 중국어로 어떻게 말하나요? 坐车 중국어 발음, 坐车 중국어 학습
5 운전을 중국어로 어떻게 말하나요? 开车 중국어 발음, 开车 중국어 학습
6 수영을 중국어로 뭐라고 하나요? 游泳 중국어 발음, 游泳 중국어 학습
7 자전거를 타다 중국어로 뭐라고 하나요? 骑自行车 중국어 발음, 骑自行车 중국어 학습
8 중국어로 안녕하세요를 어떻게 말해요? 你好중국어 발음, 你好중국어 학습
9 감사합니다를 중국어로 어떻게 말하나요? 谢谢중국어 발음, 谢谢중국어 학습
10 How to say goodbye in Chinese? 再见Chinese pronunciation, 再见Chinese learning

도구 더>

이미지 base64 디코딩

중국어 병음

유니코드 인코딩

JS 난독화 암호화 압축

URL 16진수 암호화 도구

UTF-8 인코딩 변환 도구

온라인 Ascii 인코딩 및 디코딩 도구

MD5 암호화 도구

해시/해시 텍스트 온라인 암호화 및 암호 해독 도구

온라인 SHA 암호화

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3