Python에서 대용량 파일에 대한 MD5 해시 계산
Python의 hashlib 모듈은 암호화 해시 계산을 위한 편리한 인터페이스를 제공합니다. 그러나 크기가 시스템 메모리를 초과하는 매우 큰 파일의 경우 hashlib를 직접 사용하는 것이 문제가 될 수 있습니다.
해결책: 프로그레시브 해싱
이 문제를 해결하기 위해 프로그레시브 해싱을 사용합니다. 관리 가능한 청크로 파일을 읽습니다. 이 접근 방식을 사용하면 과도한 메모리를 소비하지 않고 전체 파일 콘텐츠가 해시됩니다. 다음은 이 기술을 구현하는 샘플 Python 함수입니다.
import hashlib
def md5_for_file(f):
block_size = 2**20
md5 = hashlib.md5()
while True:
data = f.read(block_size)
if not data:
break
md5.update(data)
return md5.digest()
대용량 파일의 MD5 해시를 계산하려면 다음과 같이 함수를 호출할 수 있습니다.
with open("filename", "rb") as f:
md5 = md5_for_file(f)
파일 모드에 대한 참고 사항
정확한 결과를 얻으려면 "rb"를 사용하여 바이너리 모드에서 파일을 열어야 합니다. "r"을 사용하면 잘못된 계산이 발생할 수 있습니다.
추가 고려 사항
편의를 위해 함수의 개선된 버전이 아래에 제시됩니다.
import hashlib
import os
def generate_file_md5(rootdir, filename):
m = hashlib.md5()
with open(os.path.join(rootdir, filename), "rb") as f:
buf = f.read()
while buf:
m.update(buf)
buf = f.read()
return m.hexdigest()
정확성을 확인하려면 jacksum과 같은 외부 도구를 사용하여 계산된 해시를 교차 확인하는 것이 좋습니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3