”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 如何在Python中散列大文件而不消耗内存?

如何在Python中散列大文件而不消耗内存?

发布于2024-11-06
浏览:822

How to Hash Large Files in Python without Memory Overconsumption?

在Python中计算大文件的MD5哈希值

Python的hashlib模块为计算加密哈希值提供了一个方便的接口。然而,对于大小超过系统内存的特别大的文件,直接使用 hashlib 可能会出现问题。

解决方案:渐进式哈希

为了解决这个问题,我们采用渐进式哈希通过以可管理的块读取文件。这种方法可确保对整个文件内容进行哈希处理,而不会消耗过多的内存。下面是实现此技术的示例 Python 函数:

import hashlib

def md5_for_file(f):
    block_size = 2**20
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()

要计算大文件的 MD5 哈希值,您可以按如下方式调用该函数:

with open("filename", "rb") as f:
    md5 = md5_for_file(f)

文件模式注意事项

确保使用“rb”以二进制模式打开文件以获得准确结果。使用“r”可能会导致计算不正确。

其他注意事项

为了方便起见,下面介绍了该函数的改进版本:

import hashlib
import os

def generate_file_md5(rootdir, filename):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        buf = f.read()
        while buf:
            m.update(buf)
            buf = f.read()
    return m.hexdigest()

建议使用 jacksum 等外部工具交叉检查计算出的哈希值以验证准确性。

版本声明 本文转载于:1729388119如有侵犯,请联系[email protected]删除
最新教程 更多>
  • # 用可重用函数替换通用验证
    # 用可重用函数替换通用验证
    JavaScript 和 TypeScript 开发人员经常发现自己重复编写相同的条件。如果您是一名 Web 开发人员,您可能遇到过这样的代码: const handleSaveTextKeydown = (event: KeyboardEvent) => { if (event.key...
    编程 发布于2024-11-06
  • Effect-TS 中的过滤选项:实用指南
    Effect-TS 中的过滤选项:实用指南
    Effect-TS 提供了各种方法来过滤选项内的值,允许您对可选值应用转换、谓词或检查。这些函数有助于确保仅保留相关数据,同时丢弃 None 值或不满足指定条件的值。在本文中,我们将探讨用于过滤选项的四个关键函数:O.partitionMap、O.filterMap、O.filter 和 O.exi...
    编程 发布于2024-11-06
  • 如何根据条件布尔逻辑替换Python列表中的元素?
    如何根据条件布尔逻辑替换Python列表中的元素?
    Python 列表替换为条件布尔逻辑给定一个值列表,您可能希望根据健康)状况。条件由函数condition()定义,可以根据元素的值来确定是否替换元素。本题探讨了在Python中实现这种替换的不同方法,同时提供了替换奇数元素的示例条件。解决方案1:列表理解最有效的方法执行此替换是利用列表理解。此方法...
    编程 发布于2024-11-06
  • 如何在 Pandas 中基于 If-Else-Else 条件创建列?
    如何在 Pandas 中基于 If-Else-Else 条件创建列?
    在 Pandas 中使用 If-Else-Else 条件创建列根据 if-elif-else 条件创建新列,有两种主要方法:非向量化方法这种方法涉及定义一个对行进行操作的函数:def f(row): if row['A'] == row['B']: val = 0 e...
    编程 发布于2024-11-06
  • 如何根据 Python 中的条件替换列表中的值?
    如何根据 Python 中的条件替换列表中的值?
    Python 中根据条件替换列表中的值在 Python 中,您可能会遇到需要操作列表中元素的情况列表,例如根据特定条件替换值。通过利用有效的技术,您可以有效地执行这些修改。一种方法涉及利用列表理解。例如,如果您有一个列表 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 并且想要...
    编程 发布于2024-11-06
  • 如何使用 Docker Scratch 在 Golang 中创建静态二进制文件:CGO_ENABLED=0 和 -ldflags?
    如何使用 Docker Scratch 在 Golang 中创建静态二进制文件:CGO_ENABLED=0 和 -ldflags?
    在 Golang 中创建静态二进制文件的标志当使用 Docker 临时库在 Golang 中构建静态二进制文件时,必须包含 CGO_ENABLED =0 和 -ldflags '-extldflags "-static"' 标志。虽然这两个选项可能看起来多余,但它...
    编程 发布于2024-11-06
  • 我可以将行追加到 CSV 文件而不覆盖它吗?
    我可以将行追加到 CSV 文件而不覆盖它吗?
    在 Python 中向现有 CSV 文件追加新行:一种更有效的方法当您需要使用附加行更新 CSV 文件时,您可能会考虑以下问题:问: 是否可以向现有 CSV 文件添加新行,而无需覆盖和重新创建文件?答: 绝对!以下是将行追加到 CSV 文件的更有效方法:您可以利用Python 中的 with 语句。...
    编程 发布于2024-11-06
  • Nestjs、Firebase、GCloud。如何在 TypeScript 中快速设置 API 后端。
    Nestjs、Firebase、GCloud。如何在 TypeScript 中快速设置 API 后端。
    It's great that you decided to open this article. My name is Fedor, and I've been a full-stack developer on a permanent basis since the end of 2021. J...
    编程 发布于2024-11-06
  • 如何在维护异步操作的同时避免链式函数中的 jQuery Promise?
    如何在维护异步操作的同时避免链式函数中的 jQuery Promise?
    在链式函数中回避 jQuery Promise尽管建议避免 jQuery Promise,但开发人员在不使用 jQuery 的情况下链接异步 jQuery 函数时可能会面临挑战Promise 处理机制,如 .then() 或 .when()。为了解决这个问题,请考虑以下方法:jQuery Promi...
    编程 发布于2024-11-06
  • 为什么“repr”方法在 Python 中至关重要?
    为什么“repr”方法在 Python 中至关重要?
    探索repr方法的意义在Python编程的上下文中,repr 方法在将对象表示为字符串方面起着关键作用。这种简洁而详细的表示有多种用途:repr的目的方法:repr的主要目标方法的目的是返回一个对象的字符串表示形式,该对象既是人类可读的,而且重要的是,是明确的。这种表示应该足以重新创建具有相同状态和...
    编程 发布于2024-11-06
  • 每个开发人员都应该了解可扩展和高效应用程序的顶级 React 设计模式
    每个开发人员都应该了解可扩展和高效应用程序的顶级 React 设计模式
    随着 React 继续主导前端生态系统,掌握其设计模式可以显着提高应用程序的效率和可扩展性。 React 设计模式提供了组织和构建组件、管理状态、处理 props 和提高可重用性的最佳实践。在本博客中,我们将探讨一些关键的 React 设计模式,这些模式可以使您的开发过程从优秀走向卓越。 ...
    编程 发布于2024-11-06
  • 在 React 中构建无限滚动组件
    在 React 中构建无限滚动组件
    介绍 我们在应用程序和网页中看到无限滚动,尤其是希望我们滚动的社交媒体。虽然无意识地滚动不好,但构建自己的无限滚动是很棒的。作为开发人员,我们应该尝试重新创建我们在网上冲浪时看到的组件。它可以挑战您在实现某些组件时了解更多信息并跳出框框进行思考。 此外,如果您希望在应用程序中实现无...
    编程 发布于2024-11-06
  • 在 React 中构建响应式会议图块的动态网格系统
    在 React 中构建响应式会议图块的动态网格系统
    In the era of remote work and virtual meetings, creating a responsive and dynamic grid system for displaying participant video tiles is crucial. Inspi...
    编程 发布于2024-11-06
  • 使用 Spring Boot 和 Spring Cloud 开发微服务
    使用 Spring Boot 和 Spring Cloud 开发微服务
    微服务架构已成为构建可扩展和模块化系统的流行解决方案。通过微服务,您可以将单一应用程序分解为更小的、独立的和专业的服务,这使得系统的维护和发展变得更加容易。在这篇文章中,我们将探讨如何使用 Spring Boot 和 Spring Cloud 创建健壮且高效的微服务。 微服务简介 微服务背后的主要思...
    编程 发布于2024-11-06
  • 克服 PHP DOM XML 解析中的挑战:问题和解决方案
    克服 PHP DOM XML 解析中的挑战:问题和解决方案
    简化 PHP DOM XML 解析:揭开要点当您浏览 PHP DOM 函数的复杂性时,可能会出现某些障碍。为了解决这些挑战,让我们开始了解 DOM 的复杂性,并找出常见问题的解决方案。问题 1:使用 xml:id 驯服 ID当使用 ID 来防止树中出现重复页面时,PHP 的 DOM 遇到了一个难题:...
    编程 发布于2024-11-06

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3