在Python中计算大文件的MD5哈希值
Python的hashlib模块为计算加密哈希值提供了一个方便的接口。然而,对于大小超过系统内存的特别大的文件,直接使用 hashlib 可能会出现问题。
解决方案:渐进式哈希
为了解决这个问题,我们采用渐进式哈希通过以可管理的块读取文件。这种方法可确保对整个文件内容进行哈希处理,而不会消耗过多的内存。下面是实现此技术的示例 Python 函数:
import hashlib
def md5_for_file(f):
block_size = 2**20
md5 = hashlib.md5()
while True:
data = f.read(block_size)
if not data:
break
md5.update(data)
return md5.digest()
要计算大文件的 MD5 哈希值,您可以按如下方式调用该函数:
with open("filename", "rb") as f:
md5 = md5_for_file(f)
文件模式注意事项
确保使用“rb”以二进制模式打开文件以获得准确结果。使用“r”可能会导致计算不正确。
其他注意事项
为了方便起见,下面介绍了该函数的改进版本:
import hashlib
import os
def generate_file_md5(rootdir, filename):
m = hashlib.md5()
with open(os.path.join(rootdir, filename), "rb") as f:
buf = f.read()
while buf:
m.update(buf)
buf = f.read()
return m.hexdigest()
建议使用 jacksum 等外部工具交叉检查计算出的哈希值以验证准确性。
免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。
Copyright© 2022 湘ICP备2022001581号-3