일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- transformer
- level2
- 자료구조
- Knowledge Distillation
- Deeplearning
- NLP
- center loss
- 파이썬
- re-identification
- 논문 구현
- numpy
- 임계처리
- Computer Vision
- point cloud
- attention
- flame
- 큐
- deep learning
- Object Detection
- 딥러닝
- 3D
- OpenCV
- 프로그래머스
- Python
- 알고리즘
- 스택
- Threshold
- Object Tracking
- reconstruction
- cv2
- Today
- Total
목록딥러닝 (27)
공돌이 공룡의 서재

[BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding] https://arxiv.org/abs/1810.04805 리뷰를 쓰는 시점에서 Transformer와 BERT 둘 다 인용수가 24000을 넘어섰다. 어제 리뷰한 ViT만 해도 BERT기반이고 정말 많은 곳에서 응용되는 모델인 것 같다. Introduction BERT가 나오기 이전에 OpenAI에서 GPT1을 발표했었다. GPT는 앞서 리뷰했듯이, Transformer decoder만 stack 해서 만든 모델이다. 논문 전체적으로 GPT랑 어떤 점이 다른지를 상세하게 적혀있는데, GPT도 공부하고 같이 보면 더 좋은 공부가 될 것 같다. pre-trai..

[An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale] https://arxiv.org/abs/2010.11929 Introduction NLP에서는 Transformer model이 2017년 나타난 이후로 BERT, GPT 등의 모델들이 나타나면서 큰 발전이 있었다. Computer vision task에서는 여전히 CNN 기반 모델들이 SOTA를 차지하다가, Transformer model에 관한 논문으로 ICLR 2021에 실린 논문으로 ViT가 등장하면서, 기존 SOTA와 견줄만하거나 그 이상의 성능을 보여주는 모델들이 등장하기 시작했다. Transformer에 NLP처럼 1D sequence가 아니라, image..

* CS231N 5장 강의안과 다른 논문들을 공부하면서 알게 된 내용들을 바탕으로 정리하였습니다. 현재 컴퓨터 비전에서 CNN을 이용한 모델들이 압도적이다. 최근에서야 Vision Transformer를 시작으로, Convolution을 쓰지 않는 모델들이 나오기 시작했지만 여전히 state-of-art 모델들 대부분이 CNN 기반으로 이루어져 있다. 그렇다면 이미지에 대해 처리를 할 때 왜 Convolution 연산이 효과적인지, 한계가 있다면 무엇인지 자세히 다뤄보고자 한다. VS Fully Connected layer (=FC layer) 다음과 같은 크기의 이미지가 있다고 생각해보자. depth는 channel 과 비슷한 의미로 쓰이는데, 인풋 이미지의 경우 grayscale 인 경우와 RGB 인..

GPT1 : www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf GPT2 : d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf GPT3 : arxiv.org/abs/2005.14165 GPT라는 모델이 어떻게 발전되었는지에 초점을 두고 위 논문들의 내용을 요약해보았다. 배경 대부분 자연어처리 딥러닝은 supervised learning을 기반으로 한다. 이를 위해선 데이터의 라벨이 있도록 작업이 필요한데, 데이터셋의 크기가 큰 경우 비효율적이다. 또한 task가 달라지면, 또 다른 작업이 필요하기도 하다. unsupervised learning으로 텍스트의 good ..

배경 이전에 자연어 처리에서 사용했던 모델들은 recurrent model을 사용한다. 이 모델은 병렬 처리를 사용할 수 없어서 속도가 느리다는 단점이 있었고, 거리가 먼 단어들에 대해서 학습시키기 어려운 단점이 있었다. 이에 대한 해결책으로 거리에 상관없이 단어들의 의존성을 학습시킬 수 있도록 Attention 이 고안되었다. 그러나 Attention 또한 recurrent model과 같이 쓰이므로 어느 정도 한계를 보였다. 이런 배경 속에서, Recurrent model을 쓰지 않고 Attention만 사용하며, 병렬 처리도 가능한 Transformer가 개발되었다. 글을 쓰는 시점에서 인용수가 17000을 넘는다. 이후 나올 BERT, GPT, XLNet, 등의 뿌리가 되는 논문이라서 매우 중요한..

퍼셉트론을 tensorflow, keras, 또는 torch를 사용하지 않고 구현하려면 forwarding과 back propagation, activation function 등이 어떻게 이뤄지고 구성되어 있는지를 정확히 알고 있어야 한다. 수학을 공부할 때 모르는 개념이 있다면 증명을 한 번 해보듯이, 입문하는 분들이라면 해볼 만한 과제라고 생각한다. 딥러닝 모델 구현은 크게 다음과 같은 부분으로 나뉠 수 있다. 모델 설정 : node의 수, weight의 초기값, bias의 초기값, 등을 설정한다. 손실함수 : 손실 함수에 대한 미분으로 역전파를 할 수 있다. feed forward : 입력층 - 은닉층 - 출력층까지 값을 주는 것을 말한다 손실 함수 & back propagation : 층 사이의..