머신러닝(Machine Learning) 2

[머신러닝]Feature Selection - Filter Methods

Feature Selection : Filter Methods 각각의 독립변수를 하나만 사용한 예측모형의 성능을 이용하여 가장 분류성능 혹은 상관관계가 높은 변수만 선택하는 방법이다. 통계적 측정방법을 사용하여 피처들의 상관관계를 알아내는 방법 도움이 되지 않는 피처들은 걸러내는 'filter' 방식 💡하지만 단일 변수의 성능이 높은 특징만 모았을 때 전체 성능이 반드시 향상된다는 보장은 없다. sklearn.feature_selection.SelectKBest http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html sklearn.feature_selection.SelectKBest Example..

[불균형 데이터]오버샘플링(Over Sampling)

오버샘플링 기법 : minority class 의 데이터 다수 범주의 데이터 수에 맞게 늘리는 샘플링 방식 1. Resampling : minority class 의 데이터를 단순히 copy 하는 방법 → 새로운 데이터가 아닌 소수 데이터 개수만 많아지는 방법 ✔️ 단점 → minority class 에 과적합이 발생할 가능성이 있음. 2. SMOTE(Synthetic Minority Over-sampling Technique) : minority class 의 데이터를 최근접 이웃(K-NN) 알고리즘을 활용하여 새롭게 생성하는 방법이다. minority class 의 데이터 중 임의의 한개를 기준으로 잡는다 해당 데이터와 가장 가까운 거리에 있는 k개의 데이터를 찾는다 (이때 k개의 데이터는 모두 소수..