Swin Transformer(Shifted Window Transformer)는 비전 트랜스포머(ViT)의 단점을 개선하여, 이미지 분류, 객체 검출, 분할(Segmentation) 등 다양한 비전 작업에 최적화된 모델이다. Microsoft Research에서 2021년에 발표했으며, 기존 CNN보다도 강력한 성능을 보인다.1. Swin Transformer의 핵심 개념1) Shifted Window 기반의 지역적(Self-Attention) 연산기존 ViT(Vision Transformer)는 Self-Attention을 적용하지만, 이는 연산량이 매우 많음.Swin Transformer는 이미지를 작은 창(Window) 단위로 나누고, 각 창에서 Self-Attention을 수행하여 연산량을 감소..