如何在Python中散列大檔案而不消耗記憶體？

首頁 > 程式設計 > 如何在Python中散列大檔案而不消耗記憶體？

如何在Python中散列大檔案而不消耗記憶體？

發佈於2024-11-06

How to Hash Large Files in Python without Memory Overconsumption?

在Python中計算大檔案的MD5雜湊值

Python的hashlib模組為計算加密雜湊值提供了一個方便的接口。然而，對於大小超過系統記憶體的特別大的文件，直接使用 hashlib 可能會出現問題。

解決方案：漸進式哈希

為了解決這個問題，我們採用漸進式哈希通過以可管理的區塊讀取檔案。這種方法可確保對整個檔案內容進行哈希處理，而不會消耗過多的記憶體。以下是實作此技術的範例 Python 函數：

import hashlib

def md5_for_file(f):
    block_size = 2**20
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()

要計算大檔案的MD5 雜湊值，您可以如下呼叫函數：

with open("filename", "rb") as f:
    md5 = md5_for_file(f)

檔案模式註意事項

確保使用「rb」以二進位模式開啟檔案以獲得準確結果。使用“r”可能會導致計算不正確。

其他注意事項

為了方便起見，下面介紹了該函數的改進版本：

import hashlib
import os

def generate_file_md5(rootdir, filename):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        buf = f.read()
        while buf:
            m.update(buf)
            buf = f.read()
    return m.hexdigest()

建議使用 jacksum 等外部工具交叉檢查計算出的雜湊值以驗證準確性。

版本聲明本文轉載於：1729388119如有侵犯，請洽[email protected]刪除

最新教學更多>

Java數組中元素位置查找技巧
在Java數組中檢索元素的位置利用Java的反射API將數組轉換為列表中，允許您使用indexof方法。（primitives）（鏈接到Mishax的解決方案）用於排序陣列的數組此方法此方法返回元素的索引，如果發現了元素的索引，或一個負值，指示應放置元素的插入點。

程式設計發佈於2025-04-29
在JavaScript中如何並發運行異步操作並正確處理錯誤？
同意操作execution 在執行asynchronous操作時，相關的代碼段落會遇到一個問題，當執行asynchronous操作：此實現在啟動下一個操作之前依次等待每個操作的完成。要啟用並發執行，需要進行修改的方法。第一個解決方案試圖通過獲得每個操作的承諾來解決此問題，然後單獨等待它們： c...

程式設計發佈於2025-04-29
`console.log`顯示修改後對象值異常的原因
foo = [{id：1}，{id：2}，{id：3}，{id：4}，{id：id：5}，]，]; console.log（'foo1'，foo，foo.length）; foo.splice（2，1）; console.log('foo2', foo, foo....

程式設計發佈於2025-04-29
PHP與C++函數重載處理的區別
作為經驗豐富的C開發人員脫離謎題，您可能會遇到功能超載的概念。這個概念雖然在C中普遍，但在PHP中構成了獨特的挑戰。讓我們深入研究PHP功能過載的複雜性，並探索其提供的可能性。在PHP中理解php的方法在PHP中，函數超載的概念（如C等語言）不存在。函數簽名僅由其名稱定義，而與他們的參數列表無關...

程式設計發佈於2025-04-29
如何處理PHP文件系統功能中的UTF-8文件名？
在PHP的Filesystem functions中處理UTF-8 FileNames 在使用PHP的MKDIR函數中含有UTF-8字符的文件很多flusf-8字符時，您可能會在Windows Explorer中遇到comploreer grounder grounder grounder gro...

程式設計發佈於2025-04-29
$哪種方法更有效地用於點 - 填點檢測：射線跟踪或matplotlib \的路徑contains_points？$
哪種方法更有效地用於點 - 填點檢測：射線跟踪或matplotlib \的路徑contains_points？
在Python Matplotlib's path.contains_points FunctionMatplotlib's path.contains_points function employs a path object to represent the polygon.它...

程式設計發佈於2025-04-29
使用jQuery如何有效修改":after"偽元素的CSS屬性？
在jquery中了解偽元素的限制：訪問“ selector 嘗試修改“：”選擇器的CSS屬性時，您可能會遇到困難。 This is because pseudo-elements are not part of the DOM (Document Object Model) and are th...

程式設計發佈於2025-04-29
C++中如何將獨占指針作為函數或構造函數參數傳遞？
在構造函數和函數中將唯一的指數管理為參數 unique pointers（ unique_ptr [2啟示。通過值： base（std :: simelor_ptr n）：next（std :: move（n））{} 此方法將唯一指針的所有權轉移到函數/對象。指針的內容被移至功能中，在操作...

程式設計發佈於2025-04-29
Python不會對超範圍子串切片報錯的原因
在python中用索引切片範圍：二重性和空序列索引單個元素不同，該元素會引起錯誤，切片在序列的邊界之外沒有。這種行為源於索引和切片之間的基本差異。索引一個序列，例如“示例” [3]，返回一個項目。但是，切片序列（例如“示例” [3：4]）返回項目的子序列。索引不存在的元素時，例如“示例” [9...

程式設計發佈於2025-04-29
C++20 Consteval函數中模板參數能否依賴於函數參數？
[ consteval函數和模板參數依賴於函數參數在C 17中，模板參數不能依賴一個函數參數，因為編譯器仍然需要對非contexexpr futcoriations contim at contexpr function進行評估。 compile time。 C 20引入恆定函數，必須在編譯時進...

程式設計發佈於2025-04-29
如何使用Java.net.urlConnection和Multipart/form-data編碼使用其他參數上傳文件？
使用http request 上傳文件上傳到http server，同時也提交其他參數，java.net.net.urlconnection and Multipart/form-data Encoding是普遍的。 Here's a breakdown of the process:Mu...

程式設計發佈於2025-04-29
HTML格式標籤
HTML 格式化元素 **HTML Formatting is a process of formatting text for better look and feel. HTML provides us ability to format text without us...

程式設計發佈於2025-04-29
為什麼Microsoft Visual C ++無法正確實現兩台模板的實例？
The Mystery of "Broken" Two-Phase Template Instantiation in Microsoft Visual C Problem Statement:Users commonly express concerns that Micro...

程式設計發佈於2025-04-29
10款炫酷的JavaScript繪圖與Canvas庫
本文探討了幾個用於繪圖和畫布功能的JavaScript庫，從而授權Web開發人員使用動態圖形來增強其應用程序。讓我們深入研究這些強大的工具！更新於2013年5月18日：添加了帆布查詢。 ocanvas：此JavaScript庫通過使用對象而不是像素來簡化HTML5畫布開發，提供了一個直觀且可訪問的...

程式設計發佈於2025-04-29
在GO中構造SQL查詢時，如何安全地加入文本和值？
在go中構造文本sql查詢時，在go sql queries 中，在使用conting and contement和contement consem per時，尤其是在使用integer per當per當per時，per per per當per. [&&&&&&&&&&&&&&&&默元組方法在...

程式設計發佈於2025-04-29