特徴量エンジニアリング
特徴量エンジニアリングは、生データを features.
機械学習モデルの成功は、モデルのトレーニングに使用される機能の品質に大きく依存します。特徴エンジニアリングには、既存の特徴を組み合わせたり変換したりして新しい特徴を作成できる一連の手法が含まれます。これらの手法は、データ内の最も重要なパターンと関係を強調するのに役立ち、それによって機械学習モデルがデータからより効果的に学習するのに役立ちます。
特徴量エンジニアリングの主要なテクニック
特徴量エンジニアリングは 2 つの主要なステップに分類できます。つまり、
データ前処理
ビジネス理解(ドメイン知識)
データ前処理
これは通常、特徴エンジニアリングのステップであり、現在の機械語のニーズに合わせてデータを準備および操作することが含まれます。ここではさまざまなテクニックが使用されています;
欠損値の処理。代入 (平均、中央値、最頻値) などの手法や、欠損値をネイティブに処理するアルゴリズムを使用できます。
カテゴリ変数のエンコーディング。ワンホット エンコーディング、ラベル エンコーディング、ターゲット エンコーディングなどの一般的な方法を使用して、ほとんどのアルゴリズムでカテゴリ データを数値形式に変換する必要があります。
スケーリングと正規化。スケーリング機能は、モデルに均等に寄与することを保証します。技術には標準化 (Z スコア)
既存の機能を組み合わせて新しい機能を作成し、データとの複雑な関係を作成する機能の相互作用と機能の作成
次元削減。PCA (主成分分析) や t-SNE などの技術により、最も重要な情報を保持しながら特徴の数を削減します。
EDA は特徴エンジニアリングでも利用でき、通常は特徴エンジニアリングの前身となります。
ドメイン知識
ドメイン知識とは、特定の分野または業界における理解と専門知識を指します。特徴エンジニアリングでは、データのコンテキストと関係についての洞察と理解を適用して、モデルのパフォーマンスを向上できる意味のある特徴を作成することが含まれます。
どの機能が当面の問題に関連しているかを特定し、データの関係を理解するのに役立ちます。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3