이 논문은 "CvT: Introducing Convolutions to Vision Transformers"라는 제목으로, 기존의 Vision Transformer (ViT) 아키텍처에 컨볼루션(Convolution) 연산을 도입하여 성능과 효율성을 개선한 새로운 아키텍처인 Convolutional vision Transformer (CvT)를 제안합니다. CvT의 목표는 CNN(Convolutional Neural Network)의 바람직한 특성(예: 이동, 스케일 및 왜곡 불변성)과 트랜스포머의 장점(예: 동적 어텐션, 전역 컨텍스트, 더 나은 일반화)을 결합하여 두 디자인의 최고를 이끌어내는 것입니다.1. 도입 및 배경트랜스포머는 최근 자연어 처리(NLP) 분야에서 광범위한 작업에 걸쳐 지배적인 위..