일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- cv2
- Object Tracking
- 3D
- Knowledge Distillation
- deep learning
- numpy
- 임계처리
- 파이썬
- 프로그래머스
- Threshold
- flame
- 딥러닝
- 논문 구현
- attention
- Object Detection
- re-identification
- Deeplearning
- 알고리즘
- 스택
- transformer
- 자료구조
- center loss
- NLP
- reconstruction
- point cloud
- Computer Vision
- 큐
- level2
- OpenCV
- Python
- Today
- Total
목록딥러닝 (27)
공돌이 공룡의 서재
Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes https://arxiv.org/pdf/2101.06085v1.pdf Real-time segmentation에서 SOTA를 차지하고 있는 논문이다. 최근에 하고 있는 프로젝트에서, real-time으로 segmentation을 돌리면 좋을 것 같아서 적절한 모델을 찾아보던 중에 공부하게 되었다. 모델 구성이나 개념적으로 SOTA임에도 크게 어렵지는 않았다. Introduction 이전 논문들의 흐름이나, real-time segmentation이 왜 필요한지에 대한 자세한 내용은 생략하겠다. 핵심은 Real-time으로 segmentat..
Expressive Body Capture: 3D Hands, Face, and Body from a Single Image https://arxiv.org/abs/1904.05866?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+arxiv%2FQSXk+%28ExcitingAds%21+cs+updates+on+arXiv.org%29 [1] Introduction 사람의 행동을 더 잘 이해하기 위해선, 사람의 major keypoint들을 estimation 하는 것으로는 충분하지 않고, 몸, 손, 얼굴의 3D surface 정보들까지 포함해야 할 필요가 있다. 그런데 적절한 3D model과 3D training data가 충분하지 않아서, 이렇..
You Only Look Once: Unified, Real-Time Object Detection https://arxiv.org/abs/1506.02640 2015년에 나와서 Real-time object detection에서 한 획을 그은 논문이다. 지금은 YoLo v4까지 나온 걸로 알고 있다. v5는 공식 논문이 없다고 한다. EfficientDet까지 다루기 전에 Mask R-CNN이나 다른 YOLO 시리즈도 다뤄보고자 한다. 개인적으로 YOLO에서는 모델 구조보다는 loss metric과 1 stage detection이 어떻게 가능한지가 특히 눈여겨볼 점이라고 생각한다. Introduction 사람이 이미지를 인식할 때 어떻게 이뤄지는 서두에 언급하고 있다. 우리는 이미지를 한 번만에 보자..
CBAM: Convolutional Block Attention Module https://arxiv.org/abs/1807.06521 KAIST 연구실에서 나온 논문이다. 글을 쓰는 시점에 인용수가 2천을 넘어섰다. 멋있고 부럽다. 무튼 이 논문은 아직 ViT처럼 Transformer에 vision분야에서 쓰이기 전이다. attention을 어떤 의미로 해석할 수 있는지, pooling 연산은 어떻게 해석할 수 있는지, 등에 대해 잘 알 수 있는 논문이다. CNN operation에 대한 깊은 이해가 있으면, 논문을 더 잘 읽을 수 있을 것 같다. 여기 참고 [1] Introduction 지금까지 나왔던 CNN-base 모델들을 언급하며, 중요한 요소 몇 가지에 대해 설명하고 있다. 1) Depth: ..
End-to-End Object Detection with Transformers https://arxiv.org/abs/2005.12872 Transformer를 시작으로 Vision에 적용한 큼지막한 논문들에 대한 리뷰를 하는 중인데, Object detection을 transformer로 해결한 모델에 대해 소개하는 논문이다. 대략적으로 아 이렇구나 수준으로는 쉽게 읽은 논문인데, 자세하게 파악하자니 상당히 어려웠다... Introduction 기존에 있던 Faster R-CNN 기반 detection 모델들의 한계를 지적하고 있다. 모델 구조가 Indirect prediction이라서 end-to-end 한 방법이 아니다. 또한 Hand-design 한 요소들이 도입되었는데, 그 예로 anchor..
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows https://arxiv.org/abs/2103.14030 [1] Introduction Transformer는 NLP에서는 좋은 성능을 갖지만, Visual domain에 적용할 때 왜 어려운가?로 시작하고 있다. 이에 대한 원인으로 2가지를 제시하고 있다. scale : NLP에서는 word token을 사용하고, 크기가 고정적이지만, visual element는 스케일에 따라 다양하다. 다양하게 될 때 문제는 attention을 적용할 때 문제가 생긴다는 점이다. 기존 transformer 기반 모델들은 고정적인 크기로 가정하기 때문이다. high resolution : ..
[Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform] https://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Recovering_Realistic_Texture_CVPR_2018_paper.pdf Super-resolution 분야에 해당하는 논문이다. Transform이란 단어 때문에 Transformer model을 응용한 논문인 줄 알았으나 아니었다. 아무튼 super-resolution의 이전 모델들까지 공부해야 제대로 이해할 수 있어서, 새로운 분야를 파고들 수 있던 좋은 기회였다. Introduction 기존의 super-resolut..