논문의 목적 및 개요 이 논문은 4M이라는 다중 모달 학습 방식을 제안하며, 이는 비전 분야에서 대규모 언어 모델(LLMs)처럼 다양한 작업을 수행할 수 있는 범용적이고 확장 가능한 모델을 개발하기 위한 한 단계입니다. 현재 비전 모델은 단일 모달리티 및 작업에 고도로 특화된 경우가 많지만, 4M은 단일 통합 트랜스포머 인코더-디코더를 사용하여 텍스트, 이미지, 기하학적 및 의미론적 모달리티, 신경망 특징 맵 등 광범위한 입/출력 모달리티에 걸쳐 마스크 모델링 목표로 훈련합니다.4M의 핵심 능력 4M으로 훈련된 모델은 여러 가지 핵심 능력을 보여줍니다:다양한 비전 작업을 즉시(out of the box) 수행할 수 있습니다.보이지 않는 다운스트림 작업이나 새로운 입력 모달리티에 미세 조정 시 뛰어난 성능..