Python에서 업데이트된 PDFMiner API를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?

첫 장 > 프로그램 작성 > Python에서 업데이트된 PDFMiner API를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?

Python에서 업데이트된 PDFMiner API를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?

2024-11-09에 게시됨

검색:394

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

Python에서 PDFMiner를 사용하여 PDF 파일에서 텍스트 추출

PDF 문서 작업 시 텍스트 추출은 중요한 작업일 수 있습니다. Python 라이브러리인 PDFMiner는 이 프로세스를 단순화하여 개발자가 PDF 파일에서 텍스트를 구문 분석하고 추출할 수 있도록 합니다.

업데이트된 PDFMiner API 및 오래된 예제

PDFMiner에 대한 최근 업데이트는 API에 변경 사항을 도입하여 기존의 많은 예제를 더 이상 사용하지 않게 만들었습니다. 최신 버전으로 전환하면 텍스트 추출과 같은 기본 작업을 수행하는 방법을 확신할 수 없어 개발자가 길을 잃을 수 있습니다.

구현 예

이 문제를 해결하려면 작동하는 방법을 살펴보겠습니다. 현재 PDFMiner 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출하는 방법을 보여주는 예:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

이 코드는 필요한 모든 단계를 포괄하는 텍스트 추출에 대한 포괄적인 접근 방식을 제공합니다. Convert_pdf_to_txt 함수는 파일 경로를 입력으로 사용하고 파일 열기, 문서 파서 초기화, 페이지 내용을 텍스트 문자열로 변환하는 프로세스를 처리합니다.

이 예에서는 업데이트된 PDFMiner 구문을 보여줍니다. 오래된 코드. 최신 PDFMiner 버전과 함께 사용할 수 있도록 철저한 테스트와 검증을 거쳤습니다.

릴리스 선언문 이 글은 1729146198에서 재인쇄되었습니다. 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제하시기 바랍니다.

최신 튜토리얼 더>

UTF-8 vs. Latin-1 : 캐릭터 인코딩의 비밀!
The Critical DistinctionAt the core of the distinction lies their respective approaches to representing non-Latin characters. LATIN1은 라틴 캐릭터에 특히 적합하지...

프로그램 작성 2025-03-12에 게시되었습니다
Part SQL 주입 시리즈 : 고급 SQL 주입 기술에 대한 자세한 설명
WayMap Pentesting 도구 : 여기를 클릭하십시오 trixsec github : 여기를 클릭하십시오 Trixsec Telegram : 여기를 클릭하십시오 고급 SQL 주입 익스플로잇-7 부 : 최첨단 기술 및 예방 SQL 주입 ...

프로그램 작성 2025-03-12에 게시되었습니다
PYTZ가 처음에 예상치 못한 시간대 오프셋을 표시하는 이유는 무엇입니까?
import pytz pytz.timezone ( 'Asia/Hong_kong') std> discrepancy source 역사 전반에 걸쳐 변동합니다. PYTZ가 제공하는 기본 시간대 이름 및 오프...

프로그램 작성 2025-03-12에 게시되었습니다
$\ "일반 오류 : 2006 MySQL Server가 사라졌습니다 \"데이터를 삽입 할 때?$
\ "일반 오류 : 2006 MySQL Server가 사라졌습니다 \"데이터를 삽입 할 때?
를 해결하는 방법 "일반 오류 : 2006 MySQL Server가 사라졌습니다. 이 오류는 일반적으로 MySQL 구성의 두 변수 중 하나로 인해 서버에 대한 연결이 손실 될 때 발생합니다. 솔루션 : 이 오류를 해결하기위한 키는 Wait_Ti...

프로그램 작성 2025-03-12에 게시되었습니다
악성 콘텐츠에 대해 파일 업로드를 어떻게 보호 할 수 있습니까?
파일 업로드 보안 위협 주소 따라서 : filename을 포함하여 업로드 된 파일의 모든 측면을 면밀히 조사하는 것이 필수적입니다. 사용자는 파일 이름을 조작하여 보안 조치를 우회 할 수 있습니다. 중요한 목적으로 사용하거나 원래 이름이있는 파일을 저...

프로그램 작성 2025-03-12에 게시되었습니다
JavaScript의 정규 표현식을 사용하여 문자열에서 라인 브레이크를 제거하는 방법은 무엇입니까?
를 사용하여 다양한 라인 브레이크 변형을 충족시키기 위해 다음과 같은 정규 표현식을 사용할 수 있습니다. sometext.replace (/n \ n | \ n | 이 표현식을 .replace 메소드에 통합하면 운영 체제에 관계없이 모든 라인 브레이크 문자가...

프로그램 작성 2025-03-12에 게시되었습니다
Firefox Back 버튼을 사용할 때 JavaScript 실행이 중단되는 이유는 무엇입니까?
원인 및 솔루션 : 이 동작은 브라우저 캐싱 자바 스크립트 리소스에 의해 발생합니다. 이 문제를 해결하고 후속 페이지 방문에서 스크립트가 실행되도록하기 위해 Firefox 사용자는 Window.onload 이벤트에서 호출되도록 빈 기능을 설정해야합니다. ...

프로그램 작성 2025-03-12에 게시되었습니다
PHP를 사용하여 Blob (이미지)을 MySQL에 올바르게 삽입하는 방법은 무엇입니까?
문제 $ sql = "삽입 ImagesTore (imageId, image) 값 ( '$ this- & gt; image_id', 'file_get_contents ($ tmp_image)'; 결과적으로 실제 이...

프로그램 작성 2025-03-12에 게시되었습니다
McRypt에서 OpenSSL로 암호화를 마이그레이션하고 OpenSSL을 사용하여 McRypt 암호화 데이터를 해제 할 수 있습니까?
질문 : McRypt에서 OpenSSL로 내 암호화 라이브러리를 업그레이드 할 수 있습니까? 그렇다면 어떻게? 대답 : 대답 : 예, McRypt에서 암호화 라이브러리를 OpenSSL로 업그레이드 할 수 있습니다. OpenSSL을 사용하여 McRyp...

프로그램 작성 2025-03-12에 게시되었습니다
Java Hashset/LinkedHashset Random Element 획득 방법에 대한 자세한 설명
Java의 Hashset 및 LinkedHashset 해시 세트는 고유 한 요소 모음을 나타내며 빠른 조회를 위해 해싱을 활용합니다. LinkedHashSet은 요소가 세트에 추가 된 순서를 유지합니다. 임의의 요소를 선택하여 Java에서 세트에서 임의...

프로그램 작성 2025-03-12에 게시되었습니다
CSS는 언제 유닛없이 픽셀 (PX)으로 떨어지는 것은 언제입니까?
질문 : 유닛이 생략 될 때 픽셀 (px)에 대한 일부 속성을 수행 할 때 모든 w3c 권장 사항의 폴백 장치? UAS는 선호하는 단위로의 폴백을해야합니까? 다른 브라우저의 동작에 따라 다음 예에서 올바른 동작은 무엇입니까? ...

프로그램 작성 2025-03-12에 게시되었습니다
Google API에서 최신 JQuery 라이브러리를 검색하는 방법은 무엇입니까?
https://code.jquery.com/jquery-latest.min.js (jQuery Hosted, Minified) https://code.jquery.com/jquery-latest.js (JQuery Hosted, Hosted, 비 압축) 압축...

프로그램 작성 2025-03-12에 게시되었습니다
Homebrew에서 GO를 설정하면 명령 줄 실행 문제가 발생하는 이유는 무엇입니까?
발생하는 문제를 해결하려면 다음을 수행하십시오. 1. 필요한 디렉토리 만들기 mkdir $ home/go mkdir -p $ home/go/src/github.com/user 2. 환경 변수 구성

프로그램 작성 2025-03-12에 게시되었습니다
버전 5.6.5 이전에 MySQL의 Timestamp 열을 사용하여 current_timestamp를 사용하는 데 제한 사항은 무엇입니까?
5.6.5 이전에 mysql 버전의 기본적으로 또는 업데이트 클로즈가있는 타임 스탬프 열의 제한 사항 5.6.5 5.6.5 이전에 mySQL 버전에서 Timestamp Holumn에 전적으로 기본적으로 한 제한 사항이 있었는데, 이는 제한적으로 전혀 ...

프로그램 작성 2025-03-12에 게시되었습니다
$Point-In-Polygon 감지에 더 효율적인 방법 : Ray Tracing 또는 Matplotlib \ 's Path.contains_points?$
Point-In-Polygon 감지에 더 효율적인 방법 : Ray Tracing 또는 Matplotlib \ 's Path.contains_points?
Ray Tracing MethodThe ray tracing method intersects a horizontal ray from the point under examination with the polygon's sides. 교차로의 수를 계산하고 지점이 패...

프로그램 작성 2025-03-12에 게시되었습니다