특성 공학
기능 엔지니어링은 원시 데이터를 기능이라는 여러 속성을 갖는 보다 효과적인 입력 세트로 변환하는 기계 학습의 전처리 단계로 설명됩니다.
머신러닝 모델의 성공 여부는 모델 학습에 사용되는 기능의 품질에 크게 좌우됩니다. 기능 엔지니어링에는 기존 기능을 결합하거나 변환하여 새로운 기능을 생성할 수 있는 일련의 기술이 포함됩니다. 이러한 기술은 데이터에서 가장 중요한 패턴과 관계를 강조하는 데 도움이 되며, 이는 결국 머신러닝 모델이 데이터에서 더 효과적으로 학습하는 데 도움이 됩니다.
특성 추출의 핵심 기술
기능 엔지니어링은 두 가지 주요 단계, 즉
데이터 전처리
비즈니스 이해(도메인 지식)
데이터 전처리
이는 일반적으로 기능 엔지니어링의 한 단계이며 현재 기계 언어 요구 사항에 맞게 데이터를 준비하고 조작하는 작업이 포함됩니다. 그 중 다양한 기술이 여기에 사용됩니다.
대치(평균, 중앙값, 최빈값)와 같은 기술을 사용하거나 기본적으로 결측값을 처리하는 알고리즘을 사용할 수 있는 결측값 처리.
원-핫 인코딩, 레이블 인코딩, 대상 인코딩과 같은 일반적인 방법을 사용하여 대부분의 알고리즘에 대해 범주형 데이터를 숫자 형식으로 변환해야 하는 범주형 변수 인코딩
크기 조정 기능을 통해 모델에 균등하게 기여하는 크기 조정 및 정규화. 기술에는 표준화(z-점수)
기존 기능을 결합하여 새로운 기능을 생성하여 데이터와의 복잡한 관계를 생성하는 기능 상호 작용 및 기능 생성
PCA(주성분 분석) 또는 t-SNE와 같은 기술을 사용하여 가장 중요한 정보를 유지하면서 기능 수를 줄이는 차원 축소입니다.
EDA는 특성 추출에도 활용될 수 있으며 일반적으로 특성 추출의 전조입니다.
도메인 지식
도메인 지식은 특정 분야나 산업에 대한 이해와 전문성을 말합니다. 기능 엔지니어링에서는 데이터의 컨텍스트와 관계에 대한 통찰력과 이해를 적용하여 모델 성능을 향상할 수 있는 의미 있는 기능을 생성하는 작업이 포함됩니다.
당면한 문제와 관련된 기능을 식별하고 데이터 관계를 이해하는 데 도움이 됩니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3