Python에서 PDFMiner를 사용하여 PDF 파일에서 텍스트 추출
PDF 문서 작업 시 텍스트 추출은 중요한 작업일 수 있습니다. Python 라이브러리인 PDFMiner는 이 프로세스를 단순화하여 개발자가 PDF 파일에서 텍스트를 구문 분석하고 추출할 수 있도록 합니다.
업데이트된 PDFMiner API 및 오래된 예제
PDFMiner에 대한 최근 업데이트는 API에 변경 사항을 도입하여 기존의 많은 예제를 더 이상 사용하지 않게 만들었습니다. 최신 버전으로 전환하면 텍스트 추출과 같은 기본 작업을 수행하는 방법을 확신할 수 없어 개발자가 길을 잃을 수 있습니다.
구현 예
이 문제를 해결하려면 작동하는 방법을 살펴보겠습니다. 현재 PDFMiner 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출하는 방법을 보여주는 예:
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text
이 코드는 필요한 모든 단계를 포괄하는 텍스트 추출에 대한 포괄적인 접근 방식을 제공합니다. Convert_pdf_to_txt 함수는 파일 경로를 입력으로 사용하고 파일 열기, 문서 파서 초기화, 페이지 내용을 텍스트 문자열로 변환하는 프로세스를 처리합니다.
이 예에서는 업데이트된 PDFMiner 구문을 보여줍니다. 오래된 코드. 최신 PDFMiner 버전과 함께 사용할 수 있도록 철저한 테스트와 검증을 거쳤습니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3