導入
機械学習モデル、視覚化の開発、ユーザーフレンドリーなアプリケーションの組み込みの結果として得られるデータに関する最終目標に基づいて、プロジェクトの開始時にデータの流暢性を高めることが、最終的な成功につながります。
EDA の要点
ここでは、データ前処理の必要性がデータ アナリストにとってどのようなメリットがあるかを学びます。
膨大でさまざまなソースがあるため、今日のデータは異常である可能性が高くなります。高品質のデータによりより堅牢なモデルと予測が得られるため、データの前処理はデータ サイエンスの分野の基礎段階となっています。
探索的データ分析は、正式なモデリングまたは仮定テストのタスク以外でどのようなデータが公開される可能性があるかを確認するためのデータ サイエンティストのツールです。
データ サイエンティストは、信頼性の高い結果を確保し、影響を受ける結果や目的に適用できるようにするために、常に EDA を実行する必要があります。また、科学者や分析者が望ましい結果を達成するための適切な軌道に乗っていることを確認するのにも役立ちます。
研究の指針となるリサーチクエスチョンの例は次のとおりです:
1。データの前処理による重大な影響はありますか
正確なデータ分析結果に対する分析アプローチ - 欠損値、値の集計、データ フィルタリング、外れ値、変数変換、および変数削減 -
2。研究において前処理データ分析はどの程度の重要なレベルで必要ですか?
探索的データ分析指標とその重要性
1.データフィルタリング
これは、データセットの小さなセクションを選択し、そのサブセットを表示または分析に使用する方法です。完全なデータセットは保持されますが、計算にはそのサブセットのみが使用されます。通常、フィルタリングは一時的な手順です。研究から不正確、不正確、または標準以下の観察結果を発見したり、特定の関心グループのデータを抽出したり、特定の期間の情報を探したりすることは、すべてフィルターを使用して集計できます。データ サイエンティストは、研究用のケースを抽出するためにフィルタリング中にルールまたはロジックを指定する必要があります。
2.データ集約
データ集約では、未処理のデータを 1 か所に収集し、分析のために合計する必要があります。データの集約により、データの情報的、実用的、使用可能な価値が高まります。このフレーズを定義するために、技術ユーザーの視点がよく使用されます。データ集約は、多くのデータベースまたはデータ ソースからの未処理のデータを、アナリストまたはエンジニアのインスタンス内の集中データベースに統合するプロセスです。次に、生データを結合することによって集計数値が作成されます。合計または平均は、集計値を端的に表したものです。集約されたデータは、分析、レポート、ダッシュボード、その他のデータ製品で使用されます。データの集約により、生産性、意思決定、洞察を得るまでの時間が向上します。
3.欠落データ
データ分析では、欠損値は欠損
の別名です。
データ。これは、特定の変数または回答者が省略またはスキップされた場合に発生します。不正確なデータ入力、ファイルの紛失、またはテクノロジーの破損により、欠落が発生する可能性があります。データの欠落により、タイプによっては断続的にモデルのバイアスが発生し、問題が発生する可能性があります。データが欠落しているということは、データが誤解を招くサンプルから得られたものである可能性があるため、結果は研究のパラメーター内でのみ一般化できる可能性があることを意味します。データセット全体の一貫性を確保するには、すべての欠損値を「N/A」(「該当なし」の略) のラベルで再コード化する必要があります。
4.データ変換
データは関数またはその他の数学的手法を使用してスケール変更されます
変換中の各観測値に対する操作。私たちは
モデリングを容易にするためにデータを時々変更する
非常に大きく偏っています (プラスまたはマイナスのいずれか)。
言い換えれば、パラメトリック統計検定 if
を適用するという仮定に適合するデータ変換を試行する必要があります。
変数は正規分布に適合しません。最も一般的なデータ変換は対数 (または自然対数) です。これは、すべての観測値が正であり、データ セット内のより重要な値に関してほとんどのデータ値が 0 の周りに集まっている場合によく使用されます。
図解
EDA の視覚化テクニック
視覚化技術は EDA において重要な役割を果たしており、複雑なデータ構造と関係を視覚的に調査して理解できるようになります。 EDA で使用される一般的な視覚化手法には次のようなものがあります:
1.ヒストグラム:
ヒストグラムは、数値変数の分布を示すグラフ表現です。頻度分布を視覚化することで、データの中心的な傾向と広がりを理解するのに役立ちます。
2.箱ひげ図: 箱ひげ図は、数値変数の分布を示すグラフです。この視覚化手法は、四分位を視覚化することで外れ値を特定し、データの広がりを理解するのに役立ちます。
3.ヒートマップ: ヒートマップは、色が値を表すデータのグラフィック表現です。これらは複雑なデータセットを表示するためによく使用され、大量のデータのパターンと傾向を視覚化する迅速かつ簡単な方法を提供します。
4.棒グラフ: 棒グラフは、カテゴリ変数の分布を示すグラフです。データの頻度分布を視覚化するために使用され、各カテゴリの相対頻度を理解するのに役立ちます。
5.折れ線グラフ: 折れ線グラフは、時間の経過に伴う数値変数の傾向を示すグラフです。これは、時間の経過に伴うデータの変化を視覚化し、パターンや傾向を特定するために使用されます。
5.円グラフ: 円グラフは、カテゴリ変数の割合を示すグラフです。各カテゴリの相対的な割合を視覚化し、データの分布を理解するために使用されます。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3