특정 시나리오에서는 사용 가능한 RAM을 초과하는 대용량 파일의 MD5 해시를 계산해야 합니다. 기본 Python 함수 hashlib.md5()는 전체 파일을 메모리에 로드해야 하기 때문에 이러한 시나리오에는 적합하지 않습니다.
이 제한을 극복하기 위한 실용적인 접근 방식은 파일을 관리 가능한 청크로 읽고 해시를 반복적으로 업데이트합니다. 이를 통해 메모리 제한을 초과하지 않고 효율적인 해시 계산이 가능합니다.
import hashlib
def md5_for_file(f, block_size=2**20):
md5 = hashlib.md5()
while True:
data = f.read(block_size)
if not data:
break
md5.update(data)
return md5.digest()
파일의 MD5 해시를 계산하려면 다음 구문을 사용합니다.
with open(filename, 'rb') as f:
md5_hash = md5_for_file(f)
md5_hash 변수에는 계산된 MD5 해시가 바이트형 객체로 포함됩니다.
파일을 바이너리로 열어야 합니다. 잘못된 결과를 방지하려면 모드('rb')를 사용하세요. 포괄적인 파일 처리를 위해 다음 기능을 고려하십시오.
import os
import hashlib
def generate_file_md5(rootdir, filename, blocksize=2**20):
m = hashlib.md5()
with open(os.path.join(rootdir, filename), 'rb') as f:
while True:
buf = f.read(blocksize)
if not buf:
break
m.update(buf)
return m.hexdigest()
이 함수는 파일 경로를 사용하고 MD5 해시를 16진수 문자열로 반환합니다.
이러한 기술을 활용하면 대용량 파일에 대한 MD5 해시를 효율적으로 계산할 수 있습니다. 메모리 제한.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3