データの理解: 探索的データ分析 (EDA) の要点。

表紙 > プログラミング > データの理解: 探索的データ分析 (EDA) の要点。

データの理解: 探索的データ分析 (EDA) の要点。

2024 年 8 月 27 日に公開

ブラウズ：431

Understanding your data: The Essentials of Exploratory Data Analysis (EDA).

データが収集され保存されたら、データを分析して有意義な理解を得る必要があります。このため、探索的データ分析 (EDA) が登場します。名前が示すように、私たちはデータを'探索'しています、つまり、データの全体的な概要を取得しています。

収集されるデータはテキスト、ビデオ、または画像のいずれかであり、通常は非構造化された方法で保存されます。 100% クリーンな、つまり異常のないデータが見つかることはほとんどありません。さらに、データは Excel、CSV (カンマ区切り値)、Json、Parquet などのさまざまな形式である場合があります。

データの世界では、EDA は データ操作 または データクリーニング とも呼ばれます。業界の専門家は、「ジャンク」 を削除するためにデータをクリーニングすることの重要性を強調しています。これは、結果や予測に悪影響を与える可能性があるからです。構造化データ (通常は表形式) は、いくつかの手法やツール (Excel、Power BI、SQL など) を使用して分析できますが、この図では Python に焦点を当てます。

Python を使用した EDA
Python プログラミング言語は、金融、教育、医療、鉱業、ホスピタリティなど、複数の業界にわたって使用できる多用途性により、EDA で最も広く使用されているツールの 1 つです。
組み込みライブラリ、つまり Pandas と NumPy はこの点で非常に効果的であり、(Anaconda/Jupyter Notebook、Google Collab、Visual Studio などの IDE のいずれを使用している場合でも) 全体的に機能します

以下は、EDA を実行するときに実行できる一般的な手順とコード行です:

まず、操作/分析に必要な Python ライブラリをインポートします:

パンダを pd としてインポート
numpy を np

としてインポートします

次に、データセットをロードします
df = pd.read_excel('ファイルパス')

注: df は、表形式のデータをデータフレームに変換するための標準関数です。

ロードしたら、コードを使用してデータをプレビューできます:
df.head()

これにより、データセットの最初の 5 行が表示されます
あるいは、単純に df を実行すると、データセット全体の選択された数行 (上部と下部の両方) とそのすべての列が表示されます。

第三に、次を使用してすべてのデータ型を理解します:
df.info()

注: データ型には、整数 (整数)、浮動小数点数 (10 進数)、または オブジェクト (定性データ/説明語) が含まれます。 ]

このステップでは、次を使用してデータの概要統計を取得することをお勧めします:

df.describe()

これにより、

平均、最頻値、標準偏差、最大値/最小値、四分位数などの統計情報が得られます。 4 番目に、

を使用してデータセットに null 値が存在するかどうかを識別します。

df.isnull()
その後、重複 (繰り返しのエントリ) がチェックされます

df.duplicated()
EDA のその他の重要な側面は、データセット内のさまざまな変数が互いにどのように関係しているか (

相関

) およびそれらの分布をチェックすることです。 相関は正または負の値で、範囲は -1 から 1 です。そのコードは次のとおりです:

df.corr()

注:

1 に近い相関図は 強い正の相関を示し、-1 に近い数値は を示します。強い負の相関. 分布は、データが

対称

または非対称であるかどうか、およびデータの歪度をチェックします。正規分布、二項分布、ベルヌーイ分布、またはポアソン。要約すると、探索的データ分析は、データをより深く理解するための重要なプロセスです。これにより、より優れた視覚化とモデル構築が可能になります。

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/s_ndichu/ Understanding-your-data-the-essentials-of-exploratory-data-analysis-eda-1hh7?1 侵害がある場合は、study_golang@163 までご連絡ください。 .comを削除してください

最新のチュートリアルもっと>

「JSON」パッケージを使用してGOでJSONアレイを解析する方法は？
json arrays in jsonパッケージ問題：次のGOコードを検討してください：タイプjsontype struct { 配列[]文字列 } func main（）{ datajson：= `[" 1 "、" 2 "...

プログラミング 2025-07-06に投稿しました
コンパイラエラー「USR/BIN/LD：-L」ソリューションが見つかりません
エラーが発生したエラー： "usr/bin/ld：l " はプログラムをコンパイルしようとすると、次のエラーメッセージに遭遇する可能性があります： -l usr/bin/ld: cannot find -l<nameOfTheLibrary> ld ...

プログラミング 2025-07-06に投稿しました
3つのMySQLテーブルのデータを新しいテーブルに組み合わせる方法は？
mysql：3つのテーブルのデータと列から新しいテーブルを作成する質問：人々、詳細、および分類表の表？ P。*、d.contentを年齢として選択します psとしての人々から D.Person_id = p.idのDとして詳細を結合します t.id = d.detail_idでt...

プログラミング 2025-07-06に投稿しました
PHPのファイルシステム機能でUTF-8ファイル名を処理するにはどうすればよいですか？
PHPのファイルシステム関数のUTF-8ファイル名を処理する PHPのMKDIR関数を使用してUTF-8文字を含むフォルダーを作成するとき、に遭遇するwindows explorerに遭遇する可能性があります。 urlエンコードファイル名この問題を解決するには、urlencod...

プログラミング 2025-07-06に投稿しました
C ++ 20 consteval関数のテンプレートパラメーターは関数パラメーターに依存できますか？
consteval関数とテンプレートパラメーターは関数引数では、テンプレートパラメーターは関数引数に依存することはできません。 c 20 consteval関数 c 20 consteval関数を導入します。コンパイル時間で評価する必要があります。ただし、問題は残ります。これ...

プログラミング 2025-07-06に投稿しました
PHPでタイムゾーンを効率的に変換する方法は？
php での効率的なタイムゾーン変換は、タイムゾーンの取り扱いは簡単なタスクになる可能性があります。このガイドは、異なるタイムゾーン間で日付と時間を変換するための簡単な実装方法を提供します。たとえば、 //ユーザーのタイムゾーンを定義します date_default_timezone_s...

プログラミング 2025-07-06に投稿しました
RPCメソッド探索用のGOインターフェイスの反射動的実装
go タイプmyServiceインターフェイスのようなインターフェイスを検討してください{ ログイン（ユーザー名、パスワード文字列）（sessionId int、errエラー） helloworld（sessionid int）（こんにちは文字列、エラーエラー） } ...

プログラミング 2025-07-06に投稿しました
Python環境変数のアクセスおよび管理方法
Python の環境変数へのアクセスPythonの環境変数にアクセスするには、 os.environ オブジェクトを利用します。デフォルトでは、マッピング内の変数にアクセスすると、インタープリターにPython辞書の値を検索するように促します。 print（os.environ [&#...

プログラミング 2025-07-06に投稿しました
MySQLデータベースメソッドは、同じインスタンスをダンプする必要はありません
同じインスタンスでmysqlデータベースをコピーする同じmysqlインスタンスでデータベースをコピーすることはできません。以下の方法は、従来のダンプアンドインポートプロセスのより簡単な代替手段を提供します。 | mysql new_db_name このコマンドは、new_db_nam...

プログラミング 2025-07-06に投稿しました
GO言語をスライスするときにメモリの漏れを避ける方法は？
メモリリークがGo Slices = nil //またはtのゼロ値 } a = a [：len（a）-j i] この2番目のアプローチは、不要な元のバッキングアレイの要素に明示的にnil-ing（またはゼロ値を割り当てる）により、メモリリークのポテンシャルに対処します。これにより、ぶ...

プログラミング 2025-07-06に投稿しました
多次元アレイのためにPHPでのJSONの解析を簡素化する方法は？
jsonをphp でphpで解析しようとする場合、特に多次元配列を扱う場合は困難な場合があります。プロセスを簡素化するには、JSONをオブジェクトではなく配列として解析することをお勧めします。 print_r（$ json）を使用して配列構造を探索することは、目的の情報へのアクセス方法を決...

プログラミング 2025-07-06に投稿しました
PHPで空の配列を効率的に検出する方法は？
チェックアレイ空虚のphp の空の配列は、さまざまなアプローチを通じてPHPで決定できます。アレイ要素の存在を確認する必要がある場合、PHPのルーズタイピングにより、配列自体の直接評価が可能になります。 //リストは空です。 } if (!$playerlist) { ...

プログラミング 2025-07-06に投稿しました
複数のユーザータイプ（学生、教師、および管理者）をFireBaseアプリでそれぞれのアクティビティにリダイレクトする方法は？
red：複数のユーザータイプをそれぞれのアクティビティにリダイレクトする方法ログイン。現在のコードは、2つのユーザータイプのリダイレクトを正常に管理しますが、3番目のタイプ（admin）を組み込もうとするときに課題に直面します。元のスキーマは、2種類のユーザーのみに対応していました。 3...

プログラミング 2025-07-06に投稿しました
McRyptからOpenSSLに暗号化を移行し、OpenSSLを使用してMcRyptで暗号化されたデータを復号化できますか？
暗号化ライブラリをMcRyptからOpenSSL にアップグレードして、暗号化ライブラリをMcRyptからOpenSLにアップグレードできますか？ OpenSSLでは、McRyptで暗号化されたデータを復号化することは可能ですか？ 2つの異なる投稿は矛盾する情報を提供します。もしそうなら...

プログラミング 2025-07-06に投稿しました
PostgreSQLの各一意の識別子の最後の行を効率的に取得するにはどうすればよいですか？
postgresql：各一意の識別子の最後の行を抽出します。次のデータを検討してください： select distinct on (id) id, date, another_info from the_table order by id, date desc; データセット内の一...

プログラミング 2025-07-06に投稿しました