「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > Python で大きなファイルの MD5 ハッシュを効率的に計算する方法

Python で大きなファイルの MD5 ハッシュを効率的に計算する方法

2024 年 11 月 4 日に公開
ブラウズ:720

How to Efficiently Compute MD5 Hash of Large Files in Python

Python で大きなファイルの MD5 ハッシュを効率的に計算する

特定のシナリオでは、使用可能な RAM を超える大きなファイルの MD5 ハッシュを計算する必要があります。ネイティブ Python 関数 hashlib.md5() は、ファイル全体をメモリにロードする必要があるため、このようなシナリオには適していません。

この制限を克服するには、ファイルを管理可能なチャンクに分けて読み取り、ハッシュを繰り返し更新します。これにより、メモリ制限を超えることなく効率的なハッシュ計算が可能になります。

コード実装

import hashlib

def md5_for_file(f, block_size=2**20):
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()

使用例

ファイルの MD5 ハッシュを計算するには、次の構文を使用します。

with open(filename, 'rb') as f:
    md5_hash = md5_for_file(f)

md5_hash 変数には、計算された MD5 ハッシュがバイトのようなオブジェクトとして含まれます。

追加の考慮事項

必ずファイルをバイナリで開いてください。モード ('rb') を使用して、不正確な結果を回避します。包括的なファイル処理については、次の関数を検討してください:

import os
import hashlib

def generate_file_md5(rootdir, filename, blocksize=2**20):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), 'rb') as f:
        while True:
            buf = f.read(blocksize)
            if not buf:
                break
            m.update(buf)
    return m.hexdigest()

この関数はファイル パスを取得し、MD5 ハッシュを 16 進数の文字列として返します。

これらの手法を利用すると、大きなファイルの MD5 ハッシュを、問題が発生することなく効率的に計算できます。メモリ制限

リリースステートメント この記事は次の場所に転載されています: 1729387820 侵害がある場合は、[email protected] に連絡して削除してください。
最新のチュートリアル もっと>
  • ウェブサイトのHTMLコード
    ウェブサイトのHTMLコード
    航空関連のウェブサイトを構築しようとしています。 AI を使用してコードを生成し、Web サイト全体を生成できるかどうかを確認したかっただけです。 HTML Web サイトはブログと互換性がありますか? それとも JavaScript を使用する必要がありますか?これがデモとして使用したコードです。...
    プログラミング 2024 年 11 月 5 日に公開
  • プログラマーのように考える: Java の基礎を学ぶ
    プログラマーのように考える: Java の基礎を学ぶ
    この記事では、Java プログラミングの基本的な概念と構造を紹介します。変数とデータ型の紹介から始まり、演算子と式、および制御フロー プロセスについて説明します。次に、メソッドとクラスについて説明し、次に入出力操作を紹介します。最後に、この記事では、給与計算の実際の例を通じて、これらの概念の適用を示...
    プログラミング 2024 年 11 月 5 日に公開
  • PHP GD は 2 つの画像の類似性を比較できますか?
    PHP GD は 2 つの画像の類似性を比較できますか?
    PHP GD は 2 つの画像の類似性を判断できますか?検討中の質問は、次の方法を使用して 2 つの画像が同一であるかどうかを確認できるかどうかを尋ねます。 PHP GD の違いを比較します。これには、2 つの画像の差を取得し、画像全体が白 (または均一な色) で構成されているかどうかを判断する必要...
    プログラミング 2024 年 11 月 5 日に公開
  • これらのキーを使用して上級レベルのテストを作成します (JavaScript でのテスト要求)
    これらのキーを使用して上級レベルのテストを作成します (JavaScript でのテスト要求)
    この記事では、すべての上級開発者が知っておくべき 12 のテストのベスト プラクティスを学びます。 Kent Beck の記事「Test Desiderata」は Ruby で書かれているため、実際の JavaScript の例が表示されます。 これらのプロパティは、より良いテストを作成できるように...
    プログラミング 2024 年 11 月 5 日に公開
  • matlab/octave アルゴリズムを C に移植することによる AEC への最適なソリューション
    matlab/octave アルゴリズムを C に移植することによる AEC への最適なソリューション
    終わり!自分自身に少し感動しました。 当社の製品にはエコーキャンセル機能が必要であり、考えられる技術的解決策が 3 つ特定されました。 1) MCU を使用してオーディオ信号のオーディオ出力とオーディオ入力を検出し、オプションの 2 つのチャネル切り替えの間のオーディオ出力とオーディオ入力の強度に応...
    プログラミング 2024 年 11 月 5 日に公開
  • Web ページを段階的に構築する: HTML の構造と要素を調べる
    Web ページを段階的に構築する: HTML の構造と要素を調べる
    ?今日は、私のソフトウェア開発の旅において重要なステップとなります。 ?私は最初のコード行を書き、HTML の本質を掘り下げました。対象となる要素とタグ。昨日は、Web サイトを構造化するためのボックス化テクニックを検討しました。そして今日は、ヘッダー、フッター、コンテンツ領域などのセクションを作成...
    プログラミング 2024 年 11 月 5 日に公開
  • プロジェクトのアイデアはユニークである必要はありません: その理由は次のとおりです
    プロジェクトのアイデアはユニークである必要はありません: その理由は次のとおりです
    イノベーションの世界では、プロジェクトのアイデアが価値があるためには革新的であるか、完全にユニークである必要があるという誤解がよくあります。しかし、それは真実とは程遠いです。私たちが今日使用している成功した製品の多くは、主要な機能セットを競合他社と共有しています。彼らを区別するのは必ずしもアイデアで...
    プログラミング 2024 年 11 月 5 日に公開
  • HackTheBox - ライトアップ編集部 [退職]
    HackTheBox - ライトアップ編集部 [退職]
    Neste writeup iremos explorar uma máquina easy linux chamada Editorial. Esta máquina explora as seguintes vulnerabilidades e técnicas de exploração: S...
    プログラミング 2024 年 11 月 5 日に公開
  • コーディング スキルをレベルアップするための強力な JavaScript テクニック
    コーディング スキルをレベルアップするための強力な JavaScript テクニック
    JavaScript is constantly evolving, and mastering the language is key to writing cleaner and more efficient code. ?✨ Whether you’re just getting starte...
    プログラミング 2024 年 11 月 5 日に公開
  • ReactJS で再利用可能な Button コンポーネントを作成する方法
    ReactJS で再利用可能な Button コンポーネントを作成する方法
    ボタンは、React アプリケーションの間違いなく重要な UI コンポーネントであり、ボタンはフォームの送信や新しいページを開くなどのシナリオで使用される可能性があります。 React.js で再利用可能なボタン コンポーネントを構築し、アプリケーションのさまざまなセクションで利用できます。その結果...
    プログラミング 2024 年 11 月 5 日に公開
  • Apache HttpClient 4 でプリエンプティブ Basic 認証を実現するにはどうすればよいですか?
    Apache HttpClient 4 でプリエンプティブ Basic 認証を実現するにはどうすればよいですか?
    Apache HttpClient 4 によるプリエンプティブ基本認証の簡素化Apache HttpClient 4 は以前のバージョンのプリエンプティブ認証方式を置き換えましたが、代替手段を提供します。同じ機能を実現するため。プリエンプティブ基本認証への直接的なアプローチを求める開発者のために、こ...
    プログラミング 2024 年 11 月 5 日に公開
  • 例外処理
    例外処理
    例外は実行時に発生するエラーです。 Java の例外処理サブシステムを使用すると、構造化され制御された方法でエラーを処理できます。 Java は、例外処理に対する使いやすく柔軟なサポートを提供します。 主な利点は、以前は手動で行う必要があったエラー処理コードが自動化されたことです。 古い言語では、...
    プログラミング 2024 年 11 月 5 日に公開
  • 「dangerouslySetInnerHTML」を使わずに React で生の HTML を安全にレンダリングする方法は?
    「dangerouslySetInnerHTML」を使わずに React で生の HTML を安全にレンダリングする方法は?
    より安全な方法を使用して React で生の HTML をレンダリングするReact では、危険な SetInnerHTML の使用を回避し、より安全な方法を使用して生の HTML をレンダリングできるようになりました。 。ここには 4 つのオプションがあります:1. Unicode エンコーディン...
    プログラミング 2024 年 11 月 5 日に公開
  • PHPは死んだのか?いいえ、繁盛しています
    PHPは死んだのか?いいえ、繁盛しています
    PHP は常に批判されながらも繁栄し続けているプログラミング言語です。 使用率: W3Techs によると、2024 年 8 月の時点で、世界中の Web サイトの 75.9% が依然として PHP を使用しており、Web サイトの 43% は WordPress で構築されています。開発言語として...
    プログラミング 2024 年 11 月 5 日に公開
  • PgQueuer: PostgreSQL を強力なジョブ キューに変換する
    PgQueuer: PostgreSQL を強力なジョブ キューに変換する
    PgQueuer の紹介: PostgreSQL を使用した効率的なジョブ キューイング Dev.コミュニティへようこそ! 開発者が PostgreSQL データベースを操作する際のジョブ キューの処理方法を大幅に合理化できると信じているプロジェクトを共有できることを嬉しく思います...
    プログラミング 2024 年 11 月 5 日に公開

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3