몇 주 전 제 상사는 우리가 겪고 있는 특정 문제에 대한 작업 흐름을 생각해 낼 수 있는지 알아보라는 과제를 저에게 주었습니다. 우리는 Pre/ACT 편지를 SMS(학생 관리 시스템)로 가져오고 싶었는데, 우리의 경우에는 Skyward였습니다. 우리가 직면한 문제는 Pre/ACT 편지가 대량 PDF 또는 개별 PDF로 되어 있고 Skyward에 들어가려면 각 학생의 ID 번호에 대한 PDF가 필요하다는 것입니다. 이를 달성하기 위해 UI에 Streamlit을 사용하여 Python으로 프로그램을 작성하기로 결정했습니다.
PDF부터 시작하여 해결해야 할 문제를 살펴보겠습니다. 편지의 대량 단일 PDF 내보내기를 가져오는 것이 더 합리적이었습니다. 이는 대량 내보내기를 개별 PDF로 분할해야 함을 의미했습니다. 각 문자는 일반적으로 2페이지로 구성되지만 항상 그런 것은 아니므로 한 페이지씩 간단히 나누면 오류가 발생할 가능성이 높습니다.
두 번째 문제는 각 학생의 PDF를 읽고 해당 ID 번호로 이름을 바꾸는 것이었습니다. 이는 주로 내가 필요한 것을 가져오는 Regex 패턴에 달려 있습니다.
이것도 시간이 걸리는 도전이었기 때문에 AI와 협력하여 코드 생성을 도왔습니다. 참고: 이는 사용 중인 논리와 언어를 아는 것을 대체하지 않습니다. AI/LLM으로 이 글을 작성할 때 저는 생각의 사슬 접근 방식을 사용하여 제가 원하는 것을 한 입 크기로 제공한 다음 더 추가하기 전에 각 청크를 디버깅하고 테스트했습니다. 아래 코드는 사용된 최종 코드입니다. 각 섹션을 섹션별로 분류하겠습니다. 해당 지역에서 이를 솔루션으로 구현하려는 경우 TLDR이 이 게시물의 끝 부분에 있음을 참조하세요.
이 부분은 매우 간단하며 프로그램이 실행되는 기초입니다.
requirements.txt의 내용
streamlit pypdf2 fitz pymupdf
app.py 가져오기
import PyPDF2 import fitz # PyMuPDF import re from pathlib import Path import concurrent.futures import streamlit as st import shutil import zipfile import os
이 다음 스니펫은 대량 PDF에서 ID를 찾고 이를 분할하는 데 사용할 페이지 목록을 생성하는 작업을 다루고 있습니다. 이는 정규식에 따라 달라지는 부분이며 상황에 따라 변경해야 할 수 있습니다.
def find_id_pages(input_pdf): doc = fitz.open(input_pdf) id_pages = [] id_pattern = re.compile(r'\(ID#:\s*(\d )\)') for i, page in enumerate(doc): text = page.get_text() if id_pattern.search(text): id_pages.append(i) return id_pages
제목에서 알 수 있듯이 PDF를 분할하는 데 사용됩니다. 이것은 각 개별 PDF의 이름을 추출하는 기능을 사용합니다. 또한 성능 향상을 위해 한 번에 최대 10개씩 병렬로 분할된다는 점도 알 수 있습니다.
def split_pdf(input_pdf, output_folder, progress_callback): input_path = Path(input_pdf) output_folder = Path(output_folder) output_folder.mkdir(parents=True, exist_ok=True) # Find pages with IDs id_pages = find_id_pages(input_pdf) if not id_pages: st.error("No ID pages found in the PDF.") return pdf_reader = PyPDF2.PdfReader(str(input_path)) total_pages = len(pdf_reader.pages) temp_pdfs = [] for i in range(len(id_pages)): start_page = id_pages[i] end_page = id_pages[i 1] if i 1def extract_and_rename_pdf(pdf_path, output_folder): doc = fitz.open(pdf_path) text_first_page = doc[0].get_text() # Extract ID using a regex pattern for the format (ID#: 01234) match_first_page = re.search(r'\(ID#:\s*(\d )\)', text_first_page) if match_first_page: id_value = match_first_page.group(1) new_pdf_path = output_folder / f'{id_value}.pdf' pdf_path.rename(new_pdf_path) else: new_pdf_path = output_folder / f'unknown_{pdf_path.stem}.pdf' pdf_path.rename(new_pdf_path)거의 다 왔어
다음은 몇 가지 짧은 기능입니다. 하나는 분할된 PDF를 모두 압축하는 기능(내부 서버에서 실행하려는 경우)이고 다른 하나는 임시 파일을 정리하여 PII 학생 정보가 어디에도 남지 않도록 하는 기능입니다. 살 필요가 없습니다.
def zip_output_folder(output_folder, zip_name): shutil.make_archive(zip_name, 'zip', output_folder)def clean_up(output_folder, zip_name): shutil.rmtree(output_folder) os.remove(f"{zip_name}.zip")UI 구축
코드의 마지막 비트는 UI용입니다. Streamlit은 다재다능한 WebUI입니다(예, 단독으로 실행할 수 있습니다). 몇 번의 시도 끝에 유용성을 고려했습니다. 간단하게 유지하기 위해 업로드 버튼, 작업 버튼(예: 분할) 및 압축된 PDF를 가져오는 다운로드 버튼으로 분류했습니다.
# Streamlit App Portion st.title("PDF Splitter and Renamer") uploaded_file = st.file_uploader("Choose a PDF file", type="pdf") output_folder = "output_folder" if st.button("Split and Rename PDF"): if uploaded_file and output_folder: try: # Save uploaded file temporarily with open("temp_input.pdf", "wb") as f: f.write(uploaded_file.getbuffer()) progress_bar = st.progress(0) def update_progress(progress): progress_bar.progress(progress) split_pdf("temp_input.pdf", output_folder, update_progress) zip_name = "output_pdfs" zip_output_folder(output_folder, zip_name) st.success("PDF split and renamed successfully!") with open(f"{zip_name}.zip", "rb") as f: st.download_button( label="Download ZIP", data=f, file_name=f"{zip_name}.zip", mime="application/zip" ) # Remove temporary file Path("temp_input.pdf").unlink() clean_up(output_folder, zip_name) except Exception as e: st.error(f"An error occurred: {e}") else: st.error("Please upload a PDF file and specify an output folder.")시작 및 실행을 위한 TLDR
작업을 시작하고 실행하려면 다음 명령을 사용하세요(Linux, WSL 및 MacOS를 가정함). http://localhost:8501.
로 이동하여 앱에 접근할 수 있습니다.git clone https://github.com/Blacknight318/act-to-sms.git cd act-to-sms python3 -m venv venv source venv/bin/activate pip install -r requirements.txt streamlit run app.py마무리 중
K12 학교에 다니고 계시다면 이 내용이 도움이 되기를 바랍니다. 그렇다면 박수를 치거나 나에게 커피를 사주는 것을 고려해보세요. 다음 시간까지 순풍과 바다를 따라가세요.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3