일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- reconstruction
- attention
- deep learning
- NLP
- Object Detection
- 스택
- 임계처리
- cv2
- 3D
- point cloud
- 프로그래머스
- 논문 구현
- Deeplearning
- center loss
- Python
- OpenCV
- 자료구조
- Object Tracking
- level2
- re-identification
- Knowledge Distillation
- numpy
- Threshold
- 큐
- 파이썬
- 딥러닝
- flame
- transformer
- 알고리즘
- Computer Vision
- Today
- Total
목록딥러닝/Vision (9)
공돌이 공룡의 서재
A Discriminative Feature Learning Approach for Deep Face Recognition center loss 의 경우 face recognition 뿐 아니라 reid task에도 자주 적용되는 loss function으로, 최신 reID논문들을 이해하는데 필요한 loss 다. 이 함수를 처음 제시한 논문을 읽어보았다. Introduction face recognition task에서 feature는 separable + discriminative 특징이 있어야 한다. →class 간 구분이 잘 되며 특징이 뚜렷한 feature Discriminative 한 feature는 NN이나 k-NN 같은 알고리즘으로 잘 구분이 될 수 있다. 그러나 softmax loss는 f..
[Stacked Hourglass Networks for Human Pose Estimation] https://arxiv.org/abs/1603.06937 Pose estimation에서 중요하게 다뤄지는 개념인 heatmap을 iterative 한 구조 + scaling을 줄였다 늘였다 하는 구조로 더 정확하게 얻을 수 있는 방법을 소개하고 있다. 새로운 loss function이나 접근법 등에 대한 것보다는 구조 자체에 집중해서 보면 좋을 논문이다. Introduction pose estimation task에서 전반적인 설명을 하고 있다. 요약해서 나열해보면 다음과 같다. person posture, limb articulation 등은 더 높은 수준의 task를 수행할 때 도움이 된다. pose..
YOLACT: Real-time Instance Segmentation (ICCV 2019) https://arxiv.org/pdf/1904.02689v2.pdf Real-time instance segmentation에서 top-ranking을 차지하고 있는 모델이다. You Only Look At CoefficienTs의 약자다. 모델의 핵심 내용 중에 coefficient prediction branch가 있다 보니, 이렇게 이름 지은 것 같다. YOLACT를 살펴보고, YOLACT++까지 리뷰해보고자 한다. Introduction mask r-cnn 같은 2-stage 모델들은 성능에 초점이 맞춰져 있어서 real-time으로 적용하기에는 아쉬운 속도다. YOLACT의 목표는 1 stage ins..
Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes https://arxiv.org/pdf/2101.06085v1.pdf Real-time segmentation에서 SOTA를 차지하고 있는 논문이다. 최근에 하고 있는 프로젝트에서, real-time으로 segmentation을 돌리면 좋을 것 같아서 적절한 모델을 찾아보던 중에 공부하게 되었다. 모델 구성이나 개념적으로 SOTA임에도 크게 어렵지는 않았다. Introduction 이전 논문들의 흐름이나, real-time segmentation이 왜 필요한지에 대한 자세한 내용은 생략하겠다. 핵심은 Real-time으로 segmentat..
You Only Look Once: Unified, Real-Time Object Detection https://arxiv.org/abs/1506.02640 2015년에 나와서 Real-time object detection에서 한 획을 그은 논문이다. 지금은 YoLo v4까지 나온 걸로 알고 있다. v5는 공식 논문이 없다고 한다. EfficientDet까지 다루기 전에 Mask R-CNN이나 다른 YOLO 시리즈도 다뤄보고자 한다. 개인적으로 YOLO에서는 모델 구조보다는 loss metric과 1 stage detection이 어떻게 가능한지가 특히 눈여겨볼 점이라고 생각한다. Introduction 사람이 이미지를 인식할 때 어떻게 이뤄지는 서두에 언급하고 있다. 우리는 이미지를 한 번만에 보자..
End-to-End Object Detection with Transformers https://arxiv.org/abs/2005.12872 Transformer를 시작으로 Vision에 적용한 큼지막한 논문들에 대한 리뷰를 하는 중인데, Object detection을 transformer로 해결한 모델에 대해 소개하는 논문이다. 대략적으로 아 이렇구나 수준으로는 쉽게 읽은 논문인데, 자세하게 파악하자니 상당히 어려웠다... Introduction 기존에 있던 Faster R-CNN 기반 detection 모델들의 한계를 지적하고 있다. 모델 구조가 Indirect prediction이라서 end-to-end 한 방법이 아니다. 또한 Hand-design 한 요소들이 도입되었는데, 그 예로 anchor..
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows https://arxiv.org/abs/2103.14030 [1] Introduction Transformer는 NLP에서는 좋은 성능을 갖지만, Visual domain에 적용할 때 왜 어려운가?로 시작하고 있다. 이에 대한 원인으로 2가지를 제시하고 있다. scale : NLP에서는 word token을 사용하고, 크기가 고정적이지만, visual element는 스케일에 따라 다양하다. 다양하게 될 때 문제는 attention을 적용할 때 문제가 생긴다는 점이다. 기존 transformer 기반 모델들은 고정적인 크기로 가정하기 때문이다. high resolution : ..