전체 글 70

Sign Language Transformer

Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation 수어 번역 KCI를 위해 진행할 연구에서 Baseline으로 사용할 예정인 모델. Sign Language Transformer Abstract gloss 표현을 잘 사용하는 것이 번역 성능을 향상시킨다는 연구에 기반. end-to-end train이 가능하며 CTC손실을 통해 인식(SLR)과 번역(SLT) 문제를 단일 통합 아키텍쳐로 묶음. GT의 수화 동작의 시작 및 끝 타이밍에 대한 정보가 없이도 인식, 번역을 동시에 해결할 수 있어 더 효율적인 학습이 가능함. 이런 공동 접근 방식은 PHOENIX2014T 데이터셋에 대해 21.8의 BLEU4 ..

논문리뷰 2024.02.15

연세대학교 정보대학원 합격후기

너무 갑자기 업로드하는 대학원 관련 글. 대학원을 갈 지 말지도 고민을 하던 찰나에.. 다른 모든 대학을 떨어지고 자대와 연세대만을 붙어버린 극단적인 상황이라 결국 연세대학교 정보대학원에 진학을 하기로 결정하고, 그냥 간단한 후기..라곤 하지만 지난 한 달을 돌아보는 회고록 느낌? https://gsi.yonsei.ac.kr/ 연세대학교 정보대학원 Dec 22 겨울방학 시작 gsi.yonsei.ac.kr 먼저 정보대는 1차, 면접으로 나뉜다고는 하는데 1차 서류는 사실상 다 합격인 지 모르겠고.. 일단 1차 서류가 있다는 통보를 받아서 낮은 학점에 겁을 먹고 기다렸지만 다행히 합격을... 했고! 면접은 11/24에 새천년관에서 진행되었는데 약 15분 간격마다 7-8명씩 함께 사전 문제를 받고 10분의 시..

대학원/입학 2023.12.20

[알고리즘] 정렬 알고리즘

정렬 알고리즘은 실제로 직접 구현해야 할 일은 없지만 알고리즘 지식에 대한 기초로, 어떤 원리이며 각 시간 복잡도는 어떤 지 정도는 기본적으로 알고 있어야 한다. 그 중에서도 안정된 정렬 알고리즘(Stable Sort)과 안정하지 않은 (Unstable Sort)가 있다. 안정적인 정렬 vs 안정적이지 않은 정렬 안정적인 정렬은 동일한 값을 가진 요소들의 원래 순서가 정렬 후에도 유지되는 정렬이며, 안정적이지 않은 정렬은 동일한 값을 가진 요소들의 원래 순서가 정렬 후에 보장되지 않는 정렬이다. 동일한 키 값을 가진 요소들 사이의 원래 순서가 필요하다면 안정된 정렬을, 필요하지 않다면 안정적이지 않은 정렬을 사용한다. 보통 안정적이지 않은 정렬의 속도가 더 빠르다. 버블 정렬 (Bubble Sort) 배..

카테고리 없음 2023.11.17

[알고리즘] 선형 탐색과 이진 탐색

선형 탐색 (Linear Search) 순차 검색이라고도 부르며 데이터가 모인 집합의 처음부터 끝까지 하나하나 비교하며 원하는 값을 찾아내는 알고리즘. 데이터 배열이 정렬되어 있지 않아도 가능하고, 난이도가 쉽지만, 데이터의 양이 많아질수록 소요되는 시간이 많아진다. 브루트-포스처럼 모든 케이스를 결국 보는 것과 같다고 생각..? 시간 복잡도는 데이터의 길이 n의 O(n) 이다. def linear_search(arr, x): for i in range(len(arr)): if arr[i] == x: return i return -1 이진 탐색 (Binary Search) 이분 탐색이라고도 부르며, 반으로 나누어 연산하기 때문에 다음과 같은 이름이 붙었다. 이진 검색은 중간값부터 탐색을 시작하기에 중간값..

[Semantic Segmentation] U-Net

U-Net Biomedical Image segmentation 분야에서 적은 데이터의 수와 Cell segmentation등의 경우 같은 클래스가 인접한 셀의 구분이 어려운 문제를 해결하기 위해 고안된 모델. 전체 구조가 U의 형태로 대칭 구조를 가지고 있다. 이 대칭 구도는 수축하는 단계인 Contracting Path, 확장하는 단계인 Expanding Path로 이루어진다. Contracting Path에서는 각 Contract step마다 3x3 convolution 연산을 두 번씩 반복해 패딩이 없이 진행되며 feature map의 사이즈가 점차 줄어든다. 따라서 down-sampling마다 채널의 수가 2배로 늘어나며, 사이즈는 1/2로 감소하는 단계를 거친다. 이후 확장 단계에서는 Cont..

카테고리 없음 2023.06.20

[Semantic Segmentation] After FCN

FCN의 한계 1. 객체의 크기가 크거나 작은 경우 예측을 잘 하지 못한다. 2. Object의 디테일한 모습이 사라지는 문제가 발생한다. Decoder을 개선한 모델 DeconvNet Encoder와 Decoder를 대칭 형태로 만들었으며 backbone으로 VGG16을 사용한다. Encoder의 Conv에서 ReLU, Pooling이 일어나며 Deconvolutional Network는 Unpooling, deconvolution, ReLU로 이루어진다. deconvolution은 FCN에 나왔던 것처럼 tranposed convolution을 통해 진행되며, unpooling은 그림과 같이 pooling의 반대 연산을 수행한다. pooling 연산은 노이즈를 제거하지만 정보가 손실되는 문제가 생긴다..

[Semantic Segmentation] FCN

Overview Semantic Segmentation을 수행하기 위해 image classification을 진행했던 CNN에 대해 이를 변형시킨 네트워크. backbone으로는 (VGG16, GoogLeNet) 등을 사용한다. 기존의 CNN에서 image classification을 진행할 때 FC layer를 통해 정보를 통합해 계산한 class 별 확률을 통한 task 예측을 수행했다. 하지만 semantic segmentation에서는 이 feature map의 위치 정보가 FC layer에서 사라지는 것을 방지하고자 이 부분을 FC layer 대신 CNN을 통해 위치 정보를 유지했고, 이를 통해 segmentation task가 가능하게 했다. 또한 이 방법을 통해 input image의 si..