일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- level2
- deep learning
- Python
- OpenCV
- flame
- point cloud
- cv2
- 논문 구현
- 파이썬
- Deeplearning
- transformer
- Object Tracking
- reconstruction
- 자료구조
- center loss
- numpy
- Threshold
- 임계처리
- Knowledge Distillation
- 큐
- attention
- Computer Vision
- Object Detection
- 딥러닝
- 프로그래머스
- 3D
- 알고리즘
- re-identification
- NLP
- 스택
- Today
- Total
목록deep learning (6)
공돌이 공룡의 서재
NIPS 2017 1. Introduction Knowledge distillation 에 대한 연구들이 많이 진행되어 왔지만, 대부분이 Image Classification에 대해 적용되어 왔다. 그렇다면 다른 Task를 수행하는 모델들에 적용할 수 있을까? 논문 저자들은 Multi-Class Object Detection task에 대해 거의 처음으로 성공했다고 한다. 왜 Object detection 에 적용하기가 좀 더 힘들까? 내용을 정리하면 다음과 같다. Detectition은 bounding box 좌표도 구해야 하고, box 내 물체가 어떤 물체인지 classification도 해야한다. 즉, 더 복잡한 task라 볼 수 있고 Image classification 보다 많은 연산량을 필요로..
A Discriminative Feature Learning Approach for Deep Face Recognition center loss 의 경우 face recognition 뿐 아니라 reid task에도 자주 적용되는 loss function으로, 최신 reID논문들을 이해하는데 필요한 loss 다. 이 함수를 처음 제시한 논문을 읽어보았다. Introduction face recognition task에서 feature는 separable + discriminative 특징이 있어야 한다. →class 간 구분이 잘 되며 특징이 뚜렷한 feature Discriminative 한 feature는 NN이나 k-NN 같은 알고리즘으로 잘 구분이 될 수 있다. 그러나 softmax loss는 f..
[Stacked Hourglass Networks for Human Pose Estimation] https://arxiv.org/abs/1603.06937 Pose estimation에서 중요하게 다뤄지는 개념인 heatmap을 iterative 한 구조 + scaling을 줄였다 늘였다 하는 구조로 더 정확하게 얻을 수 있는 방법을 소개하고 있다. 새로운 loss function이나 접근법 등에 대한 것보다는 구조 자체에 집중해서 보면 좋을 논문이다. Introduction pose estimation task에서 전반적인 설명을 하고 있다. 요약해서 나열해보면 다음과 같다. person posture, limb articulation 등은 더 높은 수준의 task를 수행할 때 도움이 된다. pose..
XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks https://arxiv.org/pdf/1603.05279.pdf Quantization의 아버지 격 되는 논문이다. 인용수가 3천을 넘어간다. 아이디어 자체는 간단해서 수식적인 부분 외에는 수월하게 읽혔다. Introduction CNN 기반 모델들은 memory나 computational power가 많이 필요하다. 빠른 속도를 내려면 GPU 가 필요하기도 하고, 핸드폰이나 임베디드 전자 제품 같은 작은 기기들에는 적합하지 않다. 논문에서는 이에 대한 예시로 AlexNet과 VGG의 parameter 수와 메모리 크기를 설명하고 있다. 이 논문에서는 이에 대한 해결..
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows https://arxiv.org/abs/2103.14030 [1] Introduction Transformer는 NLP에서는 좋은 성능을 갖지만, Visual domain에 적용할 때 왜 어려운가?로 시작하고 있다. 이에 대한 원인으로 2가지를 제시하고 있다. scale : NLP에서는 word token을 사용하고, 크기가 고정적이지만, visual element는 스케일에 따라 다양하다. 다양하게 될 때 문제는 attention을 적용할 때 문제가 생긴다는 점이다. 기존 transformer 기반 모델들은 고정적인 크기로 가정하기 때문이다. high resolution : ..
[An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale] https://arxiv.org/abs/2010.11929 Introduction NLP에서는 Transformer model이 2017년 나타난 이후로 BERT, GPT 등의 모델들이 나타나면서 큰 발전이 있었다. Computer vision task에서는 여전히 CNN 기반 모델들이 SOTA를 차지하다가, Transformer model에 관한 논문으로 ICLR 2021에 실린 논문으로 ViT가 등장하면서, 기존 SOTA와 견줄만하거나 그 이상의 성능을 보여주는 모델들이 등장하기 시작했다. Transformer에 NLP처럼 1D sequence가 아니라, image..