特性工程
特徵工程被描述為機器學習中的預處理步驟,它將原始資料轉換為一組更有效的輸入,這些輸入具有多個稱為特徵的屬性。
機器學習模型的成功在很大程度上取決於用於訓練模型的特徵的品質。特徵工程涉及一組技術,使我們能夠透過組合或轉換現有特徵來創建新特徵。這些技術有助於突顯資料中最重要的模式和關係,從而幫助機器學習模型更有效地從資料中學習。
特徵工程關鍵技術
特徵工程可分為兩個關鍵步驟,即;
資料預處理
商業理解(領域知識)
資料預處理
這通常是特徵工程中的一個步驟,涉及根據當前機器語言需求準備和操作資料。其中使用了各種技術;
處理缺失值,可以採用插補(平均值、中位數、眾數)等技術,或使用本地處理缺失值的演算法。
編碼分類變量,對於大多數演算法來說,必須使用 one-hot 編碼、標籤編碼和目標編碼等常用方法將分類資料轉換為數字形式。
縮放和標準化,其中縮放特徵確保它們對模型的貢獻相同。技術包括標準化(z 分數)
特徵互動與特徵創建,將現有特徵組合起來創建新特徵,從而創建與資料的複雜關係
降維,其中 PCA(主成分分析)或 t-SNE 等技術減少了特徵數量,同時保留了最重要的資訊。
EDA 也可以用於特徵工程,通常是特徵工程的先驅。
領域知識
領域知識是指對特定領域或產業的理解和專業知識。在特徵工程中,它涉及應用對資料上下文和關係的洞察和理解來創建可以增強模型性能的有意義的特徵。
它有助於識別哪些特徵與當前問題相關並理解資料關係。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3