メモリを過剰消費せずにPythonで大きなファイルをハッシュする方法?

表紙 > プログラミング > メモリを過剰消費せずにPythonで大きなファイルをハッシュする方法?

メモリを過剰消費せずにPythonで大きなファイルをハッシュする方法?

2024 年 11 月 6 日に公開

ブラウズ：411

How to Hash Large Files in Python without Memory Overconsumption?

Python で大きなファイルの MD5 ハッシュを計算する

Python の hashlib モジュールは、暗号化ハッシュを計算するための便利なインターフェイスを提供します。ただし、サイズがシステムメモリを超える非常に大きなファイルの場合、hashlib を直接使用すると問題が発生する可能性があります。

解決策: プログレッシブハッシュ

この問題に対処するために、プログレッシブハッシュを採用します。ファイルを管理可能なチャンクに分割して読み取ることによって。このアプローチにより、過剰なメモリを消費することなく、ファイルの内容全体が確実にハッシュされます。この手法を実装するサンプル Python 関数を次に示します。

import hashlib

def md5_for_file(f):
    block_size = 2**20
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()

大きなファイルの MD5 ハッシュを計算するには、次のように関数を呼び出すことができます:

with open("filename", "rb") as f:
    md5 = md5_for_file(f)

ファイルモードに関する注意

正確な結果を得るには、必ず「rb」を使用してファイルをバイナリモードで開いてください。「r」を使用すると、計算が正しく行われない可能性があります。

追加の考慮事項

便宜上、関数の改良版を以下に示します:

import hashlib
import os

def generate_file_md5(rootdir, filename):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        buf = f.read()
        while buf:
            m.update(buf)
            buf = f.read()
    return m.hexdigest()

精度を検証するには、jacksum などの外部ツールを使用して計算されたハッシュをクロスチェックすることをお勧めします。

リリースステートメントこの記事は次の場所に転載されています: 1729388119 権利侵害がある場合は、[email protected] に連絡して削除してください。

最新のチュートリアルもっと>

プログラムを終了する前に、C ++のヒープ割り当てを明示的に削除する必要がありますか？
プログラム出口にもかかわらず、Cでの明示的な削除次の例を考慮してください。 a* a = new a（）; a-> dosomething（）; a; 0を返します。 } この例では、「削除」ステートメントは、「a」ポインターに割り当てられたヒープメモ...

プログラミング 2025-04-29に投稿されました
JavaのPNGファイルに軸とタグを追加する方法は？
java 既存のPNG画像に軸とラベルを追加するaxesとラベルを注釈する方法は挑戦的です。エラーや矛盾につながる可能性のある変更を試みるのではなく、チャート作成プロセス中に注釈を統合することをお勧めします。次の例は、カスタマイズされた注釈を使用してカスタムチャートを作成する方法を示...

プログラミング 2025-04-29に投稿されました
CSSフォント属性が定義されていないときに、JavaScriptで実際のレンダリングされたフォントを取得するにはどうすればよいですか？
css javascript object.style.fontfamily and object.style.style.style.style.styles fort not not not not not not not not not not not not not not ...

プログラミング 2025-04-29に投稿されました
「JSON」パッケージを使用してGOでJSONアレイを解析する方法は？
json arrays in jsonパッケージ問題：次のGOコードを検討してください：タイプjsontype struct { 配列[]文字列 } func main（）{ datajson：= `[" 1 "、" 2 "...

プログラミング 2025-04-29に投稿されました
ubuntu 12.04 mysqlローカル接続エラー修正ガイド

プログラミング 2025-04-29に投稿されました
ケース非感受性文字列を作成する方法：コンストラクターまたは静的工場法？
java文字列：「string s = new String（ "Silly"） "を指す指をJavaプログラミングの世界に進出しながら、文字列オブジェクトの適切な作成に関してクエリが現れます。懸念は、「新しい文字列（...）」の呼び出しの代わりにリテラル...

プログラミング 2025-04-29に投稿されました
マスターPython Coroutines：強力な同時アプリケーションのためのカスタム非同期ツールを作成する
PythonのCoroutinesは、非同期コードを作成するための強力なツールです。彼らは、同時の操作の処理方法に革命をもたらし、スケーラブルで効率的なアプリケーションの構築を容易にしました。私はコルーチンとの仕事に多くの時間を費やしましたが、カスタムの非同期プリミティブの作成に関する洞察を...

プログラミング 2025-04-29に投稿されました
Firefoxバックボタンを使用すると、JavaScriptの実行が停止するのはなぜですか？
navigational Historyの問題：JavaScriptは、Firefoxバックボタンを使用した後に実行を停止しますユーザーは、JavaScriptスクリプトが以前の訪問ページを介して回復したときに実行されない問題に遭遇する可能性があります。この問題は、ChromeやInt...

プログラミング 2025-04-29に投稿されました
jQueryを使用して「：After」pseudo-elementのCSS属性を効果的に変更するにはどうすればよいですか？
jQueryにおける擬似要素の制限を理解する： "after" after "selector in web開発のように、「擬似要素のような」：後の「擬似要素」：後の視覚的拡張を追加することができます。ただし、jQueryを使用してこれらの要素にアクセス...

プログラミング 2025-04-29に投稿されました
Pythonを使用して、大きなファイルを逆の順序で効率的に読み取るにはどうすればよいですか？
Python でファイルを逆順序で読み取る必要があり、最後の行から最初の行までの内容を読み取る必要がある場合、Pythonの組み込み機能は適切ではないかもしれません。このタスクに取り組むための効率的なソリューションは次のとおりです。バッファベースのアプローチを使用してパフォーマンスを最...

プログラミング 2025-04-29に投稿されました
SQL Serverがテーブルを削除する前に外部キーの制約を見つける方法は？
sql serverのテーブル削除前に外部キーの制約を識別多数の依存関係を備えたテーブルを削除する前に、関連するすべての外部キーの制約を識別することが不可欠です。 SQL Serverはこれを達成するためのいくつかの方法を提供します。 sp_fkeysストアドプロシージャを利用しま...

プログラミング 2025-04-29に投稿されました
C ++の関数またはコンストラクターパラメーターとして排他的なポインターを渡す方法は？
コンストラクターと機能のパラメーターとしてユニークなポインターを管理するユニークなポインター（ unique_ptr この方法は、関数/オブジェクトへの一意のポインターの所有権を転送します。ポインターの内容は関数に移動し、操作後に元のポインターが空になります。：next（std ::...

プログラミング 2025-04-29に投稿されました
Async void vs. asyncタスクのasp.net：Async voidメソッドが例外を投げることがあるのはなぜですか？
ASP.NETにおける非同期voidと非同期タスクの区別を理解するは、ASP.NETアプリケーションで、非同期プログラミングはパフォーマンスと応答性を高める上で重要な役割を果たします。ただし、Async voidと非同期タスクメソッドの重要な違いを誤解すると、予期しないエラーが発生する...

プログラミング 2025-04-29に投稿されました
Go Webアプリケーションはいつデータベース接続を閉じますか？
Go Webアプリケーションのデータベース接続の管理 PostgreSQLなどのデータベースを使用する単純なGO Webアプリケーションで、データベース接続の閉鎖のタイミングが考慮されます。これは、無期限に実行されるアプリケーションでこれをいつ、どのように処理するかを深く掘り下げます。 f...

プログラミング 2025-04-29に投稿されました
JavaScriptに他の要素の後に要素を挿入する方法は？
javascript 既存のノードの後に要素を挿入する要素を挿入することは、JavaScriptの一般的な操作です。ただし、InsertBefore（）メソッドがありますが、参照ノードの前にのみ要素を追加できます。その後要素を挿入するには、別のアプローチが必要です。ブレークダウン：...

プログラミング 2025-04-29に投稿されました