네이버 부스트캠프 학습 정리/5주차 4

5주차 회고

이번 주 학습정리는 모든 강의에 대해 하지 않았다. 솔직히 3개나 한 것도 기적이다. 강의를 들으면서 약 40%이상의 시간을 멍때렸고, 집중하지 못했다. CV의 방대한 분야에 대해 1시간마다 이 엄청난 내용들을 압축해서 호로록 진행하는 교수님의 말이 잘 안들렸다. 그나마 관심이 있는 panoptic segmentation, cGAN, multi-modal에 대해 정리하고 정리가 애매한 분야인 CNN visualization, 3D understanding, Recent trends on vision transformer에 대해서 정리하지 못했다. 하지만 ViT에 대한 이해가 필요하다고 생각되어 지난 DL basic 주차에 있었던 ViT 심화 과제를 따로 풀어보고, 심화학습에 정리할 예정이다.

[CV basic] Multi-modal

Multi - modal 인간의 지각 능력 (시각, 청각, 후각, 촉각 등)의 여러 지각 능력에서 각 다른 지각의 특성을 갖는 데이터들을 함께 이용해서 학습한 모델을 의미한다. Text data를 사용해 Image를 분류할 수 있는 모델이나, 반대로 Image data를 사용해 그 image를 설명하는 text를 생성하는 모델 등이 해당된다. 하지만 이런 멀티 모달은 학습하기 어려운 특징이 있다. 각 데이터의 유형마다 가지고 있는 정보가 다르기 때문에 정보의 양 뿐만 아니라 feature space 역시 다 다르기 때문에 유형마다의 차이가 크기에 합쳐서 표현할 방법이 필요하다. 멀티 모달의 여러 유형마다 데이터의 난이도, 편향등이 다르기 때문에 같은 비율의 데이터를 사용해 학습을 진행하는 경우 결과로 한..

[CV basic] Conditional Generative Model

cGAN 주어진 'condition'에 따라서 이미지를 생성할 수 있는 것. 위 이미지처럼 'sketch of a bag' 이 condition으로 주어지고, 이에 맞는 이미지를 생성하게 된다. 일반적인 generative model에서는 다양한 가방하면 떠오르는 이미지들 중에서 랜덤하게 한 개를 그리지만, conditional generative model에서는 스케치에 기반한 가방이 생성된다. 일반적인 GAN과 cGAN의 차이는 Real/Fake를 통한 'Criminal' (Generator) crafts, and "Police" (Discriminator) detects가 서로 counterfeit하며 학습하는 과정은 같지만, Fake 과정에서 C라는 특정 조건을 부여하게 된다. 이런 방식을 통해 ..

[CV basic] Instance Panoptic Segmentation

Instance segmentation semantic segmentation은 각 pixel들이 어느 클래스에 속하는지 분류한다. 하지만 이 경우 같은 class 내의 object들에 대해 서로 구분지을수 없다는 단점이 있다. 반면 instance segmentation은 각 pixel들이 어떤 클래스에 속하는지 분류한 후 같은 클래스 내에서도 서로 다른 instance인 경우 다른 색으로 표현한다. 즉 semantic segmentation + distinguishing instances를 동시에 수행한다. Mask R-CNN Fast R-CNN의 구조에서 pixel에 대한 class를 예측할 수 있는 개선이 이루어진다. 따라서 pixel 단위 segmentation mask를 예측할 수 있는 bra..