들어가며 CNN과 같은 딥러닝 모델을 학습시키기 위해서는 굉장히 많은 양의 데이터가 필요하다. 하지만 실무에서 대용량의 레이블링된(labeled) 데이터 셋을 확보하는 것은 결코 쉬운일이 아니다. 이번 포스팅은 computer vision 분야에서 이러한 데이터 부족 문제를 어떻게 완화하고 있는지에 대한 표준 방법들에 대해 공부할 것이다. Learning Representations of Dataset 모델은 데이터를 기반으로 학습하기 때문에 데이터의 퀄리티에 따라 성능이 좌우된다. 가령 인터넷 상에 존재하는 수많은 이미지 데이터를 활용한다고 할 때, 사람이 촬영한 이미지는 대부분 사람이 보기 좋은 구도로 촬영되었기 때문에 bias가 존재한다고 볼 수 있다. 또한 이 세상의 모든 데이터를 확보하는 것은 ..