컴퓨터공학/다중 객체 인식 2

Swin Transformer란?

Swin Transformer(Shifted Window Transformer)는 비전 트랜스포머(ViT)의 단점을 개선하여, 이미지 분류, 객체 검출, 분할(Segmentation) 등 다양한 비전 작업에 최적화된 모델이다. Microsoft Research에서 2021년에 발표했으며, 기존 CNN보다도 강력한 성능을 보인다.1. Swin Transformer의 핵심 개념1) Shifted Window 기반의 지역적(Self-Attention) 연산기존 ViT(Vision Transformer)는 Self-Attention을 적용하지만, 이는 연산량이 매우 많음.Swin Transformer는 이미지를 작은 창(Window) 단위로 나누고, 각 창에서 Self-Attention을 수행하여 연산량을 감소..

다중 객체 인식(Multiple Object Detection)

다중 객체 인식(Multiple Object Detection)에 적합한 대표적인 알고리즘은 다음과 같다.1. YOLO (You Only Look Once) 시리즈실시간 객체 인식에 적합속도가 빠르고 정확도도 높음최신 버전(YOLOv8 등)은 트랜스포머 기반 기법과 결합됨2. Faster R-CNN높은 정확도를 제공하는 대표적인 객체 탐지 알고리즘Region Proposal Network(RPN)를 활용하여 후보 영역을 생성한 후, CNN을 통해 객체를 분류실시간성은 다소 부족하지만, 정밀한 탐지가 필요할 때 유리함3. SSD (Single Shot MultiBox Detector)YOLO와 유사한 단일 패스(single-pass) 방식다양한 크기의 객체를 인식하는 데 강점이 있음YOLO보다는 느리지만 ..