データが収集され保存されたら、データを分析して有意義な理解を得る必要があります。このため、探索的データ分析 (EDA) が登場します。名前が示すように、私たちはデータを'探索'しています、つまり、データの全体的な概要を取得しています。
収集されるデータはテキスト、ビデオ、または画像のいずれかであり、通常は非構造化された方法で保存されます。 100% クリーンな、つまり異常のないデータが見つかることはほとんどありません。さらに、データは Excel、CSV (カンマ区切り値)、Json、Parquet などのさまざまな形式である場合があります。
データの世界では、EDA は データ操作 または データ クリーニング とも呼ばれます。業界の専門家は、「ジャンク」 を削除するためにデータをクリーニングすることの重要性を強調しています。これは、結果や予測に悪影響を与える可能性があるからです。構造化データ (通常は表形式) は、いくつかの手法やツール (Excel、Power BI、SQL など) を使用して分析できますが、この図では Python に焦点を当てます。
Python を使用した EDA
Python プログラミング言語は、金融、教育、医療、鉱業、ホスピタリティなど、複数の業界にわたって使用できる多用途性により、EDA で最も広く使用されているツールの 1 つです。
組み込みライブラリ、つまり Pandas と NumPy はこの点で非常に効果的であり、(Anaconda/Jupyter Notebook、Google Collab、Visual Studio などの IDE のいずれを使用している場合でも) 全体的に機能します
以下は、EDA を実行するときに実行できる一般的な手順とコード行です:
まず、操作/分析に必要な Python ライブラリをインポートします:
パンダを pd としてインポート
numpy を np
次に、データセットをロードします
df = pd.read_excel('ファイルパス')
注: df は、表形式のデータをデータ フレームに変換するための標準関数です。
ロードしたら、コードを使用してデータをプレビューできます:
df.head()
これにより、データセットの最初の 5 行が表示されます
あるいは、単純に df を実行すると、データセット全体の選択された数行 (上部と下部の両方) とそのすべての列が表示されます。
第三に、次を使用してすべてのデータ型を理解します:
df.info()
注: データ型には、整数 (整数)、浮動小数点数 (10 進数)、または オブジェクト (定性データ/説明語) が含まれます。 ]
このステップでは、次を使用してデータの概要統計を取得することをお勧めします:
df.describe()
平均、最頻値、標準偏差、最大値/最小値、四分位数などの統計情報が得られます。 4 番目に、
を使用してデータセットに null 値が存在するかどうかを識別します。df.isnull()
その後、重複 (繰り返しのエントリ) がチェックされます
df.duplicated()
EDA のその他の重要な側面は、データセット内のさまざまな変数が互いにどのように関係しているか (
) およびそれらの 分布 をチェックすることです。
相関は正または負の値で、範囲は -1 から 1 です。そのコードは次のとおりです:
注:
1 に近い相関図は 強い正の相関を示し、-1 に近い数値は を示します。強い負の相関. 分布は、データが
対称または非対称であるかどうか、およびデータの歪度をチェックします。正規分布、二項分布、ベルヌーイ分布、またはポアソン。 要約すると、探索的データ分析は、データをより深く理解するための重要なプロセスです。これにより、より優れた視覚化とモデル構築が可能になります。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3