Imbalanced 데이터 다루기
[ 제 네이버 블로그 글을 티스토리로 이전한 글입니다. 해당 글은 제 네이버 블로그에 2018.06.09에 작성되었었습니다 ] Kdnuggets에서 inbalanced 데이터에 대한 글을 보다가, 정리해두면 좋을 것 같아서 글을 작성한다. 실제 데이터를 다루다보면, imbalanced 데이터를 다룰 때가 많다. 특히나 사람을 대상으로 인지적인 실험을 할 때, class 데이터 비율을 조절하기가 난감할 때가 종종있다. 나의 경우 이러한 데이터를 다룰 때는 data augmentation을 통하여 data가 부족한 class의 데이터 수를 보충해주거나, confusion matrix를 확인해보면서 모델의 성능을 확인하는 편이다. * Imbalanced 데이터: 전체 데이터 중, 특정 class 데이터가 대다..
Machine learning
2021. 8. 3. 09:36