「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > メモリを過剰消費せずにPythonで大きなファイルをハッシュする方法?

メモリを過剰消費せずにPythonで大きなファイルをハッシュする方法?

2024 年 11 月 6 日に公開
ブラウズ:411

How to Hash Large Files in Python without Memory Overconsumption?

Python で大きなファイルの MD5 ハッシュを計算する

Python の hashlib モジュールは、暗号化ハッシュを計算するための便利なインターフェイスを提供します。ただし、サイズがシステム メモリを超える非常に大きなファイルの場合、hashlib を直接使用すると問題が発生する可能性があります。

解決策: プログレッシブ ハッシュ

この問題に対処するために、プログレッシブ ハッシュを採用します。ファイルを管理可能なチャンクに分割して読み取ることによって。このアプローチにより、過剰なメモリを消費することなく、ファイルの内容全体が確実にハッシュされます。この手法を実装するサンプル Python 関数を次に示します。

import hashlib

def md5_for_file(f):
    block_size = 2**20
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()

大きなファイルの MD5 ハッシュを計算するには、次のように関数を呼び出すことができます:

with open("filename", "rb") as f:
    md5 = md5_for_file(f)

ファイル モードに関する注意

正確な結果を得るには、必ず「rb」を使用してファイルをバイナリ モードで開いてください。 「r」を使用すると、計算が正しく行われない可能性があります。

追加の考慮事項

便宜上、関数の改良版を以下に示します:

import hashlib
import os

def generate_file_md5(rootdir, filename):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        buf = f.read()
        while buf:
            m.update(buf)
            buf = f.read()
    return m.hexdigest()

精度を検証するには、jacksum などの外部ツールを使用して計算されたハッシュをクロスチェックすることをお勧めします。

リリースステートメント この記事は次の場所に転載されています: 1729388119 権利侵害がある場合は、[email protected] に連絡して削除してください。
最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3