如何在Python中散列大文件而不消耗内存？

首页 > 编程 > 如何在Python中散列大文件而不消耗内存？

如何在Python中散列大文件而不消耗内存？

发布于2024-11-06

How to Hash Large Files in Python without Memory Overconsumption?

在Python中计算大文件的MD5哈希值

Python的hashlib模块为计算加密哈希值提供了一个方便的接口。然而，对于大小超过系统内存的特别大的文件，直接使用 hashlib 可能会出现问题。

解决方案：渐进式哈希

为了解决这个问题，我们采用渐进式哈希通过以可管理的块读取文件。这种方法可确保对整个文件内容进行哈希处理，而不会消耗过多的内存。下面是实现此技术的示例 Python 函数：

import hashlib

def md5_for_file(f):
    block_size = 2**20
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()

要计算大文件的 MD5 哈希值，您可以按如下方式调用该函数：

with open("filename", "rb") as f:
    md5 = md5_for_file(f)

文件模式注意事项

确保使用“rb”以二进制模式打开文件以获得准确结果。使用“r”可能会导致计算不正确。

其他注意事项

为了方便起见，下面介绍了该函数的改进版本：

import hashlib
import os

def generate_file_md5(rootdir, filename):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        buf = f.read()
        while buf:
            m.update(buf)
            buf = f.read()
    return m.hexdigest()

建议使用 jacksum 等外部工具交叉检查计算出的哈希值以验证准确性。

版本声明本文转载于：1729388119如有侵犯，请联系[email protected]删除

最新教程更多>

如何在无序集合中为元组实现通用哈希功能？
在未订购的集合中的元素要纠正此问题，一种方法是手动为特定元组类型定义哈希函数，例如： template template template 。 struct std :: hash { size_t operator（）（std :: tuple const&tuple）const {...

编程发布于2025-04-09
如何从Python中的字符串中删除表情符号：固定常见错误的初学者指南？
从python import codecs import codecs import codecs 导入 text = codecs.decode（'这狗\ u0001f602'.encode（'utf-8'），'utf-8'）印刷（文字）＃带有...

编程发布于2025-04-09
如何使用“ JSON”软件包解析JSON阵列？
parsing JSON与JSON软件包 QUALDALS：考虑以下go代码：字符串 } func main（）{ datajson：=`[“ 1”，“ 2”，“ 3”]`` arr：= jsontype {} 摘要：= = json.unmarshal（[] byte（...

编程发布于2025-04-09
为什么不使用CSS`content'属性显示图像？
在Firefox extemers属性为某些图像很大，&& && && &&华倍华倍[华氏华倍华氏度]很少见，却是某些浏览属性很少，尤其是特定于Firefox的某些浏览器未能在使用内容属性引用时未能显示图像的情况。这可以在提供的CSS类中看到：。googlepic { 内容：url（&#...

编程发布于2025-04-09
您可以使用CSS在Chrome和Firefox中染色控制台输出吗？
在javascript console 中显示颜色是可以使用chrome的控制台显示彩色文本，例如红色的redors，for for for for错误消息？回答是的，可以使用CSS将颜色添加到Chrome和Firefox中的控制台显示的消息（版本31或更高版本）中。要实现这一目标，请使用以下模...

编程发布于2025-04-09
可以在纯CS中将多个粘性元素彼此堆叠在一起吗？
[2这里： https：//webthemez.com/demo/sticky-multi-header-scroll/index.html </main> <section> { display：grid; grid-template-...

编程发布于2025-04-09
为什么PYTZ最初显示出意外的时区偏移？
与pytz 最初从pytz获得特定的偏移。例如，亚洲/hong_kong最初显示一个七个小时37分钟的偏移：差异源利用本地化将时区分配给日期，使用了适当的时区名称和偏移量。但是，直接使用DateTime构造器分配时区不允许进行正确的调整。 example pytz.timezone（...

编程发布于2025-04-09
$\“（1）vs.（;;）：编译器优化是否消除了性能差异？\”$
\“（1）vs.（;;）：编译器优化是否消除了性能差异？\”
答案：在大多数现代编译器中，while（1）和（1）和（;;）之间没有性能差异。编译器： perl： 1 输入 - > 2 2 NextState（Main 2 -E：1）V-> 3 9 Leaveloop VK/2-> A 3 toterloop（next-> 8 last-> 9 ...

编程发布于2025-04-09
如何在Java的全屏独家模式下处理用户输入？
Handling User Input in Full Screen Exclusive Mode in JavaIntroductionWhen running a Java application in full screen exclusive mode, the usual event ha...

编程发布于2025-04-09
在细胞编辑后，如何维护自定义的JTable细胞渲染？
在JTable中维护jtable单元格渲染后，在JTable中，在JTable中实现自定义单元格渲染和编辑功能可以增强用户体验。但是，至关重要的是要确保即使在编辑操作后也保留所需的格式。在设置用于格式化“价格”列的“价格”列，用户遇到的数字格式丢失的“价格”列的“价格”之后，问题在设置自定义单元格...

编程发布于2025-04-09
如何使用替换指令在GO MOD中解析模块路径差异？
在使用GO MOD时，在GO MOD 中克服模块路径差异时，可能会遇到冲突，其中3个Party Package将另一个PAXPANCE带有导入式套件之间的另一个软件包，并在导入式套件之间导入另一个软件包。如回声消息所证明的那样： go.etcd.io/bbolt [&&&&&&&&&&&&&&&&...

编程发布于2025-04-09
如何使用node-mysql在单个查询中执行多个SQL语句？
在node-mysql node-mysql文档最初出于安全原因最初禁用多个语句支持，因为它可能导致SQL注入攻击。要启用此功能，您需要在创建连接时将倍增设置设置为true： var connection = mysql.createconnection（{{multipleStatement：...

编程发布于2025-04-09
在Java中使用for-to-loop和迭代器进行收集遍历之间是否存在性能差异？
For Each Loop vs. Iterator: Efficiency in Collection TraversalIntroductionWhen traversing a collection in Java, the choice arises between using a for-...

编程发布于2025-04-09
哪种在JavaScript中声明多个变量的方法更可维护？
在JavaScript中声明多个变量：探索两个方法在JavaScript中，开发人员经常遇到需要声明多个变量的需要。对此的两种常见方法是：在单独的行上声明每个变量：当涉及性能时，这两种方法本质上都是等效的。但是，可维护性可能会有所不同。第一个方法被认为更易于维护。每个声明都是其自己的语句，使其...

编程发布于2025-04-09
如何在JavaScript对象中动态设置键？
在尝试为JavaScript对象创建动态键时，如何使用此Syntax jsObj['key' i] = 'example' 1;不工作。正确的方法采用方括号： jsobj ['key''i] ='example'1; 在JavaScript中，数组是一...

编程发布于2025-04-09