Python で大きなファイルの MD5 ハッシュを計算する
Python の hashlib モジュールは、暗号化ハッシュを計算するための便利なインターフェイスを提供します。ただし、サイズがシステム メモリを超える非常に大きなファイルの場合、hashlib を直接使用すると問題が発生する可能性があります。
解決策: プログレッシブ ハッシュ
この問題に対処するために、プログレッシブ ハッシュを採用します。ファイルを管理可能なチャンクに分割して読み取ることによって。このアプローチにより、過剰なメモリを消費することなく、ファイルの内容全体が確実にハッシュされます。この手法を実装するサンプル Python 関数を次に示します。
import hashlib
def md5_for_file(f):
block_size = 2**20
md5 = hashlib.md5()
while True:
data = f.read(block_size)
if not data:
break
md5.update(data)
return md5.digest()
大きなファイルの MD5 ハッシュを計算するには、次のように関数を呼び出すことができます:
with open("filename", "rb") as f:
md5 = md5_for_file(f)
ファイル モードに関する注意
正確な結果を得るには、必ず「rb」を使用してファイルをバイナリ モードで開いてください。 「r」を使用すると、計算が正しく行われない可能性があります。
追加の考慮事項
便宜上、関数の改良版を以下に示します:
import hashlib
import os
def generate_file_md5(rootdir, filename):
m = hashlib.md5()
with open(os.path.join(rootdir, filename), "rb") as f:
buf = f.read()
while buf:
m.update(buf)
buf = f.read()
return m.hexdigest()
精度を検証するには、jacksum などの外部ツールを使用して計算されたハッシュをクロスチェックすることをお勧めします。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3