"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > 메모리 과잉 소비 없이 Python에서 대용량 파일을 해시하는 방법은 무엇입니까?

메모리 과잉 소비 없이 Python에서 대용량 파일을 해시하는 방법은 무엇입니까?

2024-11-06에 게시됨
검색:778

How to Hash Large Files in Python without Memory Overconsumption?

Python에서 대용량 파일에 대한 MD5 해시 계산

Python의 hashlib 모듈은 암호화 해시 계산을 위한 편리한 인터페이스를 제공합니다. 그러나 크기가 시스템 메모리를 초과하는 매우 큰 파일의 경우 hashlib를 직접 사용하는 것이 문제가 될 수 있습니다.

해결책: 프로그레시브 해싱

이 문제를 해결하기 위해 프로그레시브 해싱을 사용합니다. 관리 가능한 청크로 파일을 읽습니다. 이 접근 방식을 사용하면 과도한 메모리를 소비하지 않고 전체 파일 콘텐츠가 해시됩니다. 다음은 이 기술을 구현하는 샘플 Python 함수입니다.

import hashlib

def md5_for_file(f):
    block_size = 2**20
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()

대용량 파일의 MD5 해시를 계산하려면 다음과 같이 함수를 호출할 수 있습니다.

with open("filename", "rb") as f:
    md5 = md5_for_file(f)

파일 모드에 대한 참고 사항

정확한 결과를 얻으려면 "rb"를 사용하여 바이너리 모드에서 파일을 열어야 합니다. "r"을 사용하면 잘못된 계산이 발생할 수 있습니다.

추가 고려 사항

편의를 위해 함수의 개선된 버전이 아래에 제시됩니다.

import hashlib
import os

def generate_file_md5(rootdir, filename):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        buf = f.read()
        while buf:
            m.update(buf)
            buf = f.read()
    return m.hexdigest()

정확성을 확인하려면 jacksum과 같은 외부 도구를 사용하여 계산된 해시를 교차 확인하는 것이 좋습니다.

릴리스 선언문 이 글은 1729388119에서 재인쇄되었습니다. 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제하시기 바랍니다.
최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3