如何在 Python 中高效计算大文件的 MD5 哈希值

首页 > 编程 > 如何在 Python 中高效计算大文件的 MD5 哈希值

如何在 Python 中高效计算大文件的 MD5 哈希值

发布于2024-11-04

How to Efficiently Compute MD5 Hash of Large Files in Python

在Python中高效计算大文件的MD5哈希值

在某些场景下，需要计算超出可用RAM的大文件的MD5哈希值。原生 Python 函数 hashlib.md5() 不适合这种情况，因为它需要将整个文件加载到内存中。

要克服此限制，一种实用的方法是以可管理的块读取文件，并迭代更新哈希值。这允许高效的哈希计算而不超出内存限制。

代码实现

import hashlib

def md5_for_file(f, block_size=2**20):
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()

用法示例

要计算文件的 MD5 哈希值，请使用以下语法：

with open(filename, 'rb') as f:
    md5_hash = md5_for_file(f)

md5_hash 变量将包含计算出的 MD5 哈希值作为类似字节的对象。

其他注意事项

确保以二进制方式打开文件mode ('rb') 以避免错误结果。对于全面的文件处理，请考虑以下功能：

import os
import hashlib

def generate_file_md5(rootdir, filename, blocksize=2**20):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), 'rb') as f:
        while True:
            buf = f.read(blocksize)
            if not buf:
                break
            m.update(buf)
    return m.hexdigest()

此函数采用文件路径并以十六进制字符串形式返回 MD5 哈希值。

通过利用这些技术，您可以有效地计算大文件的 MD5 哈希值，而不会遇到内存限制。

版本声明本文转载于：1729387820如有侵犯，请联系[email protected]删除

最新教程更多>

`console.log`显示修改后对象值异常的原因
foo = [{id：1}，{id：2}，{id：3}，{id：4}，{id：id：5}，]，]; console.log（'foo1'，foo，foo.length）; foo.splice（2，1）; console.log('foo2', foo, foo....

编程发布于2025-07-10
如何避免Go语言切片时的内存泄漏？
，a [j：] ...虽然通常有效，但如果使用指针，可能会导致内存泄漏。这是因为原始的备份阵列保持完整，这意味着新切片外部指针引用的任何对象仍然可能占据内存。 copy（a [i：] 对于k，n：= len（a）-j i，len（a）; k

编程发布于2025-07-10
为什么使用固定定位时，为什么具有100％网格板柱的网格超越身体？
网格超过身体，用100％grid-template-columns 为什么在grid-template-colms中具有100％的显示器，当位置设置为设置的位置时，grid-template-colly修复了？问题：考虑以下CSS和html： class =“ snippet-code”> g...

编程发布于2025-07-10
PHP与C++函数重载处理的区别
作为经验丰富的C开发人员脱离谜题，您可能会遇到功能超载的概念。这个概念虽然在C中普遍，但在PHP中构成了独特的挑战。让我们深入研究PHP功能过载的复杂性，并探索其提供的可能性。在PHP中理解php的方法在PHP中，函数超载的概念（如C等语言）不存在。函数签名仅由其名称定义，而与他们的参数列表无关。...

编程发布于2025-07-10
如何在Java中正确显示“ DD/MM/YYYY HH：MM：SS.SS”格式的当前日期和时间？
如何在“ dd/mm/yyyy hh：mm：mm：ss.ss”格式“ gormat 解决方案： args）抛出异常{ 日历cal = calendar.getInstance（）; SimpleDateFormat SDF =新的SimpleDateFormat（“...

编程发布于2025-07-09
如何从PHP中的Unicode字符串中有效地产生对URL友好的sl。
为有效的slug生成首先，该函数用指定的分隔符替换所有非字母或数字字符。此步骤可确保slug遵守URL惯例。随后，它采用ICONV函数将文本简化为us-ascii兼容格式，从而允许更广泛的字符集合兼容性。接下来，该函数使用正则表达式删除了不需要的字符，例如特殊字符和空格。此步骤可确保slug仅包含...

编程发布于2025-07-09
如何使用Depimal.parse（）中的指数表示法中的数字？
在尝试使用Decimal.parse（“ 1.2345e-02”中的指数符号表示法表示的字符串时，您可能会遇到错误。这是因为默认解析方法无法识别指数符号。成功解析这样的字符串，您需要明确指定它代表浮点数。您可以使用numbersTyles.Float样式进行此操作，如下所示：[&& && && ...

编程发布于2025-07-09
在UTF8 MySQL表中正确将Latin1字符转换为UTF8的方法
在UTF8表中将latin1字符转换为utf8 ，您遇到了一个问题，其中含义的字符（例如，“jáuòiñe”）在utf8 table tabled tablesset中被extect（例如，“致电。为了解决此问题，您正在尝试使用“ mb_convert_encoding”和“ iconv”转换受...

编程发布于2025-07-09
用户本地时间格式及时区偏移显示指南
在用户的语言环境格式中显示日期/时间，并使用时间偏移在向最终用户展示日期和时间时，以其localzone and格式显示它们至关重要。这确保了不同地理位置的清晰度和无缝用户体验。以下是使用JavaScript实现此目的的方法。方法：推荐方法是处理客户端的Javascript中的日期/时间格式化和时...

编程发布于2025-07-09
为什么我会收到MySQL错误＃1089：错误的前缀密钥？
mySQL错误＃1089：错误的前缀键错误descript [＃1089-不正确的前缀键在尝试在表中创建一个prefix键时会出现。前缀键旨在索引字符串列的特定前缀长度长度，可以更快地搜索这些前缀。了解prefix keys `这将在整个Movie_ID列上创建标准主键。主密钥对于唯一识别...

编程发布于2025-07-09
如何在整个HTML文档中设计特定元素类型的第一个实例？

编程发布于2025-07-09
如何使用FormData（）处理多个文件上传？
）处理多个文件输入时，通常需要处理多个文件上传时，通常是必要的。 The fd.append("fileToUpload[]", files[x]); method can be used for this purpose, allowing you to send multi...

编程发布于2025-07-09
如何简化PHP中的JSON解析以获取多维阵列？
php 试图在PHP中解析JSON数据的JSON可能具有挑战性，尤其是在处理多维数组时。要简化过程，建议将JSON作为数组而不是对象解析。执行此操作，将JSON_DECODE函数与第二个参数设置为true：[&&&&& && &&&&& json = JSON = JSON_DECODE（$ j...

编程发布于2025-07-09
$解决MySQL插入Emoji时出现的\\"字符串值错误\\"异常$
解决MySQL插入Emoji时出现的\\"字符串值错误\\"异常
Resolving Incorrect String Value Exception When Inserting EmojiWhen attempting to insert a string containing emoji characters into a MySQL database us...

编程发布于2025-07-09
如何使用Python的请求和假用户代理绕过网站块？
如何使用Python的请求模拟浏览器行为，以及伪造的用户代理提供了一个用户 - 代理标头一个有效方法是提供有效的用户式header，以提供有效的用户 - 设置，该标题可以通过browser和Acterner Systems the equestersystermery和操作系统。通过模仿像Chro...

编程发布于2025-07-09