일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- level2
- cv2
- 큐
- OpenCV
- Deeplearning
- 논문 구현
- Object Detection
- 자료구조
- 프로그래머스
- 3D
- reconstruction
- re-identification
- Threshold
- Python
- 알고리즘
- NLP
- Computer Vision
- Object Tracking
- flame
- 딥러닝
- center loss
- 스택
- transformer
- deep learning
- 임계처리
- 파이썬
- numpy
- point cloud
- Knowledge Distillation
- attention
- Today
- Total
목록딥러닝/NLP (3)
공돌이 공룡의 서재
[BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding] https://arxiv.org/abs/1810.04805 리뷰를 쓰는 시점에서 Transformer와 BERT 둘 다 인용수가 24000을 넘어섰다. 어제 리뷰한 ViT만 해도 BERT기반이고 정말 많은 곳에서 응용되는 모델인 것 같다. Introduction BERT가 나오기 이전에 OpenAI에서 GPT1을 발표했었다. GPT는 앞서 리뷰했듯이, Transformer decoder만 stack 해서 만든 모델이다. 논문 전체적으로 GPT랑 어떤 점이 다른지를 상세하게 적혀있는데, GPT도 공부하고 같이 보면 더 좋은 공부가 될 것 같다. pre-trai..
GPT1 : www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf GPT2 : d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf GPT3 : arxiv.org/abs/2005.14165 GPT라는 모델이 어떻게 발전되었는지에 초점을 두고 위 논문들의 내용을 요약해보았다. 배경 대부분 자연어처리 딥러닝은 supervised learning을 기반으로 한다. 이를 위해선 데이터의 라벨이 있도록 작업이 필요한데, 데이터셋의 크기가 큰 경우 비효율적이다. 또한 task가 달라지면, 또 다른 작업이 필요하기도 하다. unsupervised learning으로 텍스트의 good ..
배경 이전에 자연어 처리에서 사용했던 모델들은 recurrent model을 사용한다. 이 모델은 병렬 처리를 사용할 수 없어서 속도가 느리다는 단점이 있었고, 거리가 먼 단어들에 대해서 학습시키기 어려운 단점이 있었다. 이에 대한 해결책으로 거리에 상관없이 단어들의 의존성을 학습시킬 수 있도록 Attention 이 고안되었다. 그러나 Attention 또한 recurrent model과 같이 쓰이므로 어느 정도 한계를 보였다. 이런 배경 속에서, Recurrent model을 쓰지 않고 Attention만 사용하며, 병렬 처리도 가능한 Transformer가 개발되었다. 글을 쓰는 시점에서 인용수가 17000을 넘는다. 이후 나올 BERT, GPT, XLNet, 등의 뿌리가 되는 논문이라서 매우 중요한..