"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > Python에서 대용량 파일의 MD5 해시를 효율적으로 계산하는 방법

Python에서 대용량 파일의 MD5 해시를 효율적으로 계산하는 방법

2024-11-04에 게시됨
검색:380

How to Efficiently Compute MD5 Hash of Large Files in Python

Python에서 대용량 파일의 MD5 해시를 효율적으로 계산

특정 시나리오에서는 사용 가능한 RAM을 초과하는 대용량 파일의 MD5 해시를 계산해야 합니다. 기본 Python 함수 hashlib.md5()는 전체 파일을 메모리에 로드해야 하기 때문에 이러한 시나리오에는 적합하지 않습니다.

이 제한을 극복하기 위한 실용적인 접근 방식은 파일을 관리 가능한 청크로 읽고 해시를 반복적으로 업데이트합니다. 이를 통해 메모리 제한을 초과하지 않고 효율적인 해시 계산이 가능합니다.

코드 구현

import hashlib

def md5_for_file(f, block_size=2**20):
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()

사용 예

파일의 MD5 해시를 계산하려면 다음 구문을 사용합니다.

with open(filename, 'rb') as f:
    md5_hash = md5_for_file(f)

md5_hash 변수에는 계산된 MD5 해시가 바이트형 객체로 포함됩니다.

추가 고려 사항

파일을 바이너리로 열어야 합니다. 잘못된 결과를 방지하려면 모드('rb')를 사용하세요. 포괄적인 파일 처리를 위해 다음 기능을 고려하십시오.

import os
import hashlib

def generate_file_md5(rootdir, filename, blocksize=2**20):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), 'rb') as f:
        while True:
            buf = f.read(blocksize)
            if not buf:
                break
            m.update(buf)
    return m.hexdigest()

이 함수는 파일 경로를 사용하고 MD5 해시를 16진수 문자열로 반환합니다.

이러한 기술을 활용하면 대용량 파일에 대한 MD5 해시를 효율적으로 계산할 수 있습니다. 메모리 제한.

릴리스 선언문 이 글은 1729387820에서 재인쇄되었습니다. 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제하시기 바랍니다.
최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3