"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > Python에서 업데이트된 PDFMiner API를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?

Python에서 업데이트된 PDFMiner API를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?

2024-11-09에 게시됨
검색:203

How to Extract Text from PDF Files Using Updated PDFMiner API in Python?

Python에서 PDFMiner를 사용하여 PDF 파일에서 텍스트 추출

PDF 문서 작업 시 텍스트 추출은 중요한 작업일 수 있습니다. Python 라이브러리인 PDFMiner는 이 프로세스를 단순화하여 개발자가 PDF 파일에서 텍스트를 구문 분석하고 추출할 수 있도록 합니다.

업데이트된 PDFMiner API 및 오래된 예제

PDFMiner에 대한 최근 업데이트는 API에 변경 사항을 도입하여 기존의 많은 예제를 더 이상 사용하지 않게 만들었습니다. 최신 버전으로 전환하면 텍스트 추출과 같은 기본 작업을 수행하는 방법을 확신할 수 없어 개발자가 길을 잃을 수 있습니다.

구현 예

이 문제를 해결하려면 작동하는 방법을 살펴보겠습니다. 현재 PDFMiner 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출하는 방법을 보여주는 예:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

이 코드는 필요한 모든 단계를 포괄하는 텍스트 추출에 대한 포괄적인 접근 방식을 제공합니다. Convert_pdf_to_txt 함수는 파일 경로를 입력으로 사용하고 파일 열기, 문서 파서 초기화, 페이지 내용을 텍스트 문자열로 변환하는 프로세스를 처리합니다.

이 예에서는 업데이트된 PDFMiner 구문을 보여줍니다. 오래된 코드. 최신 PDFMiner 버전과 함께 사용할 수 있도록 철저한 테스트와 검증을 거쳤습니다.

릴리스 선언문 이 글은 1729146198에서 재인쇄되었습니다. 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제하시기 바랍니다.
최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3