일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- numpy
- 프로그래머스
- cv2
- Object Tracking
- Computer Vision
- 3D
- NLP
- Knowledge Distillation
- OpenCV
- 임계처리
- 파이썬
- flame
- Deeplearning
- Python
- 알고리즘
- attention
- 자료구조
- center loss
- 스택
- Object Detection
- level2
- re-identification
- 큐
- Threshold
- reconstruction
- 딥러닝
- point cloud
- deep learning
- transformer
- 논문 구현
- Today
- Total
목록transformer (6)
공돌이 공룡의 서재
End-to-End Object Detection with Transformers https://arxiv.org/abs/2005.12872 Transformer를 시작으로 Vision에 적용한 큼지막한 논문들에 대한 리뷰를 하는 중인데, Object detection을 transformer로 해결한 모델에 대해 소개하는 논문이다. 대략적으로 아 이렇구나 수준으로는 쉽게 읽은 논문인데, 자세하게 파악하자니 상당히 어려웠다... Introduction 기존에 있던 Faster R-CNN 기반 detection 모델들의 한계를 지적하고 있다. 모델 구조가 Indirect prediction이라서 end-to-end 한 방법이 아니다. 또한 Hand-design 한 요소들이 도입되었는데, 그 예로 anchor..
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows https://arxiv.org/abs/2103.14030 [1] Introduction Transformer는 NLP에서는 좋은 성능을 갖지만, Visual domain에 적용할 때 왜 어려운가?로 시작하고 있다. 이에 대한 원인으로 2가지를 제시하고 있다. scale : NLP에서는 word token을 사용하고, 크기가 고정적이지만, visual element는 스케일에 따라 다양하다. 다양하게 될 때 문제는 attention을 적용할 때 문제가 생긴다는 점이다. 기존 transformer 기반 모델들은 고정적인 크기로 가정하기 때문이다. high resolution : ..
[BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding] https://arxiv.org/abs/1810.04805 리뷰를 쓰는 시점에서 Transformer와 BERT 둘 다 인용수가 24000을 넘어섰다. 어제 리뷰한 ViT만 해도 BERT기반이고 정말 많은 곳에서 응용되는 모델인 것 같다. Introduction BERT가 나오기 이전에 OpenAI에서 GPT1을 발표했었다. GPT는 앞서 리뷰했듯이, Transformer decoder만 stack 해서 만든 모델이다. 논문 전체적으로 GPT랑 어떤 점이 다른지를 상세하게 적혀있는데, GPT도 공부하고 같이 보면 더 좋은 공부가 될 것 같다. pre-trai..
[An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale] https://arxiv.org/abs/2010.11929 Introduction NLP에서는 Transformer model이 2017년 나타난 이후로 BERT, GPT 등의 모델들이 나타나면서 큰 발전이 있었다. Computer vision task에서는 여전히 CNN 기반 모델들이 SOTA를 차지하다가, Transformer model에 관한 논문으로 ICLR 2021에 실린 논문으로 ViT가 등장하면서, 기존 SOTA와 견줄만하거나 그 이상의 성능을 보여주는 모델들이 등장하기 시작했다. Transformer에 NLP처럼 1D sequence가 아니라, image..
GPT1 : www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf GPT2 : d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf GPT3 : arxiv.org/abs/2005.14165 GPT라는 모델이 어떻게 발전되었는지에 초점을 두고 위 논문들의 내용을 요약해보았다. 배경 대부분 자연어처리 딥러닝은 supervised learning을 기반으로 한다. 이를 위해선 데이터의 라벨이 있도록 작업이 필요한데, 데이터셋의 크기가 큰 경우 비효율적이다. 또한 task가 달라지면, 또 다른 작업이 필요하기도 하다. unsupervised learning으로 텍스트의 good ..
배경 이전에 자연어 처리에서 사용했던 모델들은 recurrent model을 사용한다. 이 모델은 병렬 처리를 사용할 수 없어서 속도가 느리다는 단점이 있었고, 거리가 먼 단어들에 대해서 학습시키기 어려운 단점이 있었다. 이에 대한 해결책으로 거리에 상관없이 단어들의 의존성을 학습시킬 수 있도록 Attention 이 고안되었다. 그러나 Attention 또한 recurrent model과 같이 쓰이므로 어느 정도 한계를 보였다. 이런 배경 속에서, Recurrent model을 쓰지 않고 Attention만 사용하며, 병렬 처리도 가능한 Transformer가 개발되었다. 글을 쓰는 시점에서 인용수가 17000을 넘는다. 이후 나올 BERT, GPT, XLNet, 등의 뿌리가 되는 논문이라서 매우 중요한..