이 논문은 자연어 지도학습을 통해 범용적인 시각 모델인 CLIP (Contrastive Language-Image Pre-training)을 학습하는 접근 방식을 제시합니다. 기존의 컴퓨터 비전 시스템은 미리 정해진 고정된 객체 범주를 예측하도록 훈련되며, 이는 추가적인 시각적 개념을 지정하기 위해 추가적인 레이블링된 데이터가 필요하다는 점에서 일반성과 유용성을 제한합니다. 이미지에 대한 원본 텍스트로부터 직접 학습하는 것은 훨씬 더 광범위한 지도학습 소스를 활용하는 유망한 대안입니다. 이 논문은 이미지와 캡션의 쌍을 예측하는 간단한 사전 학습 작업이 인터넷에서 수집된 4억 개의 (이미지, 텍스트) 쌍 데이터셋에서 SOTA 이미지 표현을 처음부터 학습하는 효율적이고 확장 가능한 방법임을 보여줍니다. 사전 학습 후, 자연어는 학습된 시각적 개념을 참조하거나 새로운 개념을 설명하는 데 사용되어 모델을 다운스트림 작업으로 제로샷(zero-shot) 전이할 수 있게 합니다.
연구 동기 및 기존 연구:
최근 몇 년 동안 원본 텍스트에서 직접 학습하는 사전 학습 방법은 NLP 분야에서 혁신을 가져왔습니다. 이러한 작업불가 독립(task-agnostic) 목표는 계산량, 모델 용량, 데이터 규모를 몇 차수 늘려가며 꾸준히 성능을 향상시켰습니다. 반면, 컴퓨터 비전 분야에서는 여전히 ImageNet과 같은 크라우드 라벨링된 데이터셋에서 모델을 사전 학습하는 것이 일반적인 관행입니다. 웹 텍스트에서 직접 학습하는 확장 가능한 사전 학습 방법이 컴퓨터 비전에서도 비슷한 혁신을 가져올 수 있는지에 대한 연구가 있었습니다.
20여 년 전 Mori et al. (1999)은 이미지와 쌍을 이루는 텍스트 문서의 명사와 형용사를 예측하도록 모델을 훈련하여 콘텐츠 기반 이미지 검색을 개선하는 방법을 탐구했습니다. Quattoni et al. (2007)은 캡션의 단어를 예측하도록 훈련된 분류기의 가중치 공간에서 매니폴드 학습을 통해 더 데이터 효율적인 이미지 표현을 학습하는 것이 가능함을 보여주었습니다. Joulin et al. (2016)은 이 연구 라인을 현대화하여 이미지 캡션의 단어를 예측하도록 훈련된 CNN이 유용한 이미지 표현을 학습한다는 것을 입증했습니다. Li et al. (2017)은 이 접근 방식을 개별 단어 외에 구(n-gram) 예측으로 확장하고 시스템이 다른 이미지 분류 데이터셋으로 제로샷 전이하는 능력을 입증했습니다. 최근에는 VirTex (Desai & Johnson, 2020), ICMLM (Bulent Sariyildiz et al., 2020), ConVIRT (Zhang et al., 2020)가 트랜스포머 기반 언어 모델링, 마스크 언어 모델링 및 콘트라스티브 목표가 텍스트에서 이미지 표현을 학습하는 잠재력을 보여주었습니다.
그러나 자연어 지도학습을 이미지 표현 학습에 사용하는 것은 여전히 드물었습니다. 이는 주요 벤치마크에서의 성능이 다른 접근 방식보다 훨씬 낮았기 때문입니다. 예를 들어, Li et al. (2017)은 ImageNet에서 제로샷 설정으로 11.5% 정확도에 불과했습니다. 이는 당시의 최첨단 정확도(Xie et al., 2020의 88.4%)에 훨씬 미치지 못하는 수준이었습니다.
CLIP의 접근 방식:
CLIP의 핵심은 자연어에 담긴 지도학습 정보에서 인식을 학습하는 아이디어입니다. 이러한 연구들의 공통점은 특정 방법의 세부 사항이 아니라 자연어를 훈련 신호로 활용한다는 점입니다. 표준 크라우드소싱 라벨링에 비해 자연어 지도학습은 확장이 훨씬 쉽습니다. 또한, 대부분의 비지도 또는 자기 지도 학습 접근 방식과 달리, 자연어에서 학습하는 것은 표현을 학습할 뿐만 아니라 그 표현을 언어와 연결하여 유연한 제로샷 전이를 가능하게 합니다.
- 충분히 큰 데이터셋 생성: 기존 데이터셋은 양이 적거나 메타데이터 품질이 떨어져 자연어 지도학습의 잠재력을 충분히 반영하지 못했습니다. 이를 해결하기 위해, 인터넷의 다양한 공개 소스에서 4억 개의 (이미지, 텍스트) 쌍으로 구성된 새로운 데이터셋인 WIT (WebImageText)를 구축했습니다. 다양한 시각적 개념을 최대한 포함하기 위해 약 50만 개의 쿼리 목록(영어 위키피디아에서 100회 이상 등장하는 모든 단어, 고 PMI 바이그램, 특정 검색량 이상의 위키피디아 문서 이름 등)을 사용하여 (이미지, 텍스트) 쌍을 수집했습니다.
- 효율적인 사전 학습 방법 선택: 최첨단 컴퓨터 비전 시스템은 매우 많은 계산량을 사용합니다. 자연어에서 개방형 시각적 개념을 학습하는 작업은 훨씬 더 많은 계산량이 필요할 수 있습니다. 저자들은 훈련 효율성이 자연어 지도학습을 성공적으로 확장하는 데 핵심임을 발견하고 이 기준에 따라 최종 사전 학습 방법을 선택했습니다.
- 초기 접근 방식 (VirTex와 유사): 이미지 CNN과 텍스트 트랜스포머를 처음부터 함께 훈련하여 이미지의 캡션을 예측하는 방식. 그러나 이 방법은 확장 효율성이 떨어졌습니다. 트랜스포머 언어 모델은 ImageNet 클래스를 인식하는 데 훨씬 느렸습니다.
- 콘트라스티브 학습: 각 이미지와 함께 제공되는 텍스트의 정확한 단어를 예측하는 것보다, 배치 내 N × N 가능한 (이미지, 텍스트) 쌍 중 실제로 발생한 쌍을 예측하는 더 쉬운 대리 작업(proxy task)을 해결하도록 시스템을 훈련했습니다. 이는 콘트라스티브 학습에서 더 나은 표현을 학습한다는 발견을 활용한 것입니다.
- CLIP (Contrastive Language-Image Pre-training): 이미지 인코더와 텍스트 인코더를 함께 훈련하여 배치 내 N개의 실제 쌍의 이미지와 텍스트 임베딩 간의 코사인 유사도를 최대화하고 N² − N개의 잘못된 쌍의 임베딩 간의 유사도를 최소화합니다. 이러한 유사도 점수에 대해 대칭적인 교차 엔트로피 손실을 최적화합니다. 이 방법은 대규모 자연어 지도학습에서 학습하는 효율적인 방법입니다.
- 모델 선택 및 확장: 이미지 인코더로 ResNet-50 아키텍처를 수정하여 사용하거나 Vision Transformer (ViT)를 사용했습니다. 텍스트 인코더로는 Radford et al. (2019)의 수정이 적용된 트랜스포머를 사용했습니다. 모델 크기는 ResNet의 경우 폭, 깊이, 해상도를 동시에 확장하고, 텍스트 인코더는 주로 폭만 확장했습니다. ResNet 5개와 Vision Transformer 3개의 시리즈를 훈련했습니다. 가장 성능이 좋은 모델은 ViT-L/14@336px 모델이었습니다.
- 훈련: 모든 모델은 32 epoch 동안 훈련했습니다. Adam optimizer와 decoupled weight decay를 사용하고, 학습률은 코사인 스케줄을 사용했습니다. 학습 가능한 온도 매개변수 τ는 직접 최적화했습니다. 매우 큰 미니배치 크기인 32,768을 사용했습니다. 혼합 정밀도 및 기타 메모리 절약 기법을 활용했습니다. 가장 큰 ResNet 모델은 V100 GPU 592개로 18일, Vision Transformer는 V100 GPU 256개로 12일이 소요되었습니다.
실험 및 결과:
- 제로샷 전이: CLIP은 이미지와 텍스트 스니펫이 쌍을 이루는지 예측하도록 사전 학습되었습니다. 제로샷 분류를 수행하기 위해 이 기능을 재사용합니다. 각 데이터셋의 모든 클래스 이름을 잠재적인 텍스트 쌍으로 사용하고 CLIP에 따라 가장 가능성 있는 (이미지, 텍스트) 쌍을 예측합니다. 이미지 인코더는 이미지의 특징 임베딩을 계산하고 텍스트 인코더는 대상 데이터셋의 클래스를 지정하는 텍스트를 임베딩하여 제로샷 선형 분류기의 가중치를 생성하는 하이퍼 네트워크 역할을 합니다.
- Visual N-Grams와의 초기 비교: CLIP은 ImageNet에서 Visual N-Grams의 11.5% 정확도를 76.2%로 크게 개선했으며, 이 데이터셋에 사용 가능한 128만 개의 크라우드 라벨링된 훈련 예제를 전혀 사용하지 않고도 원래 ResNet-50의 성능과 일치했습니다. CLIP은 또한 다른 데이터셋(aYahoo, SUN)에서도 Visual N-Grams를 크게 능가했습니다. 이러한 개선은 데이터셋 크기(10배 큼), 모델 계산량(100배 이상), 훈련 계산량(1000배 이상) 및 트랜스포머 아키텍처 사용 등 여러 요인의 차이로 설명됩니다.
- 프롬프트 엔지니어링 및 앙상블: 표준 이미지 분류 데이터셋의 클래스 이름만 사용하는 경우 다의성(polysemy) 등 문제가 발생할 수 있습니다. "A photo of a {label}."와 같은 프롬프트 템플릿을 사용하면 성능이 향상됩니다. 각 작업에 맞게 프롬프트 텍스트를 사용자 지정하면 성능이 크게 향상될 수 있습니다. 다양한 프롬프트 텍스트를 사용하여 여러 제로샷 분류기에 대한 앙상블을 수행하면 성능이 안정적으로 향상됩니다. 프롬프트 엔지니어링과 앙상블은 ImageNet 정확도를 약 5% 향상시킵니다.
- 제로샷 CLIP 성능 분석: 제로샷 CLIP은 27개 데이터셋 중 16개에서 ImageNet에서 훈련된 ResNet-50의 특징에 선형 분류기를 맞춘 완전히 지도학습된 기준선보다 우수했습니다. 미세 분류 작업에서는 성능 편차가 컸습니다. ImageNet과 같은 "일반" 객체 분류 데이터셋에서는 성능이 유사했습니다. 비디오 액션 인식 데이터셋에서는 ResNet-50보다 훨씬 우수했습니다. 이는 자연어가 동사와 관련된 시각적 개념에 더 넓은 지도학습을 제공하기 때문일 수 있습니다. 제로샷 CLIP은 위성 이미지 분류, 림프절 종양 감지, 객체 카운팅, 교통 표지 인식과 같은 복잡하거나 추상적인 작업에서는 성능이 상당히 약했습니다. 제로샷 CLIP은 동일한 특징 공간에서 훈련된 4샷 선형 분류기의 성능과 일치했으며, 이는 자연어를 통해 시각적 개념을 직접 지정("소통")할 수 있기 때문일 수 있습니다. 다른 모델의 특징에 대한 16샷 분류기의 성능과 거의 일치했습니다. 제로샷 전이의 데이터 효율성은 데이터셋별로 크게 다릅니다 (클래스당 1개 미만에서 184개 라벨링된 예제까지). 제로샷 성능은 선형 분류기 성능과 양의 상관관계(0.82)가 있지만 대부분 10-25% 낮았습니다. 제로샷 CLIP 성능은 모델 계산량에 따라 매끄럽게 확장되었습니다.
- 표현 학습 (선형 프로브): 모델에서 추출한 표현에 선형 분류기를 맞춰 다양한 데이터셋에서 성능을 측정하는 방식입니다. 완전한 엔드투엔드 미세 조정보다 선형 분류기 평가를 선택했습니다. CLIP 모델은 표준 벤치마크(Kornblith et al.'s 12 datasets)에서 다른 모델보다 우수하며, 특히 더 광범위한 27개 데이터셋 평가 스위트에서 CLIP의 이점이 더 명확했습니다. 모든 CLIP 모델은 계산 효율성 면에서 다른 평가 시스템보다 우수했습니다. 최첨단 EfficientNet 모델보다 21개 데이터셋에서 성능이 우수했습니다. OCR, 지리 위치 파악, 액션 인식 등 ImageNet에는 포함되지 않은 다양한 작업을 학습했습니다.
- 자연 분포 변화에 대한 강건성: ImageNet 모델은 자연 분포 변화에 대해 성능이 크게 떨어지는 것으로 나타났습니다. 제로샷 CLIP은 이미지넷 정확도와 분포 변화 하에서의 정확도 간의 격차를 최대 75% 줄여 효과적인 강건성을 크게 향상시켰습니다. 이는 모델이 특정 분포에서만 유효한 가짜 상관관계를 악용할 수 없기 때문일 수 있습니다. 그러나 ImageNet 분포에 적응하기 위해 CLIP 특징에 선형 분류기를 맞추면 ImageNet 정확도는 9.2% 증가했지만 평균 분포 변화 하에서의 정확도는 약간 감소했습니다. 이는 지도 학습을 통한 정확도 향상이 ImageNet 분포 주변에 집중되어 있음을 시사합니다. 데이터셋별 제로샷 분류기(데이터셋별 클래스 이름을 사용)는 강건성을 향상시킬 수 있습니다. 소수의 샷으로 훈련된 CLIP 모델도 기존 모델보다 효과적인 강건성이 높았지만, 이는 훈련 데이터가 많아질수록 줄어들고 제로샷 CLIP보다 덜 강건했습니다. 이러한 결과는 대규모 작업불가 독립 사전 학습과 제로샷/소수샷 벤치마킹이 더 강건한 시스템 개발을 촉진함을 시사합니다.
인간 성능과의 비교:
Oxford IIT Pets 데이터셋에서 인간을 평가했습니다. 인간은 제로샷에서 54% 정확도를 보였고, 한 예제만 주어졌을 때 76%로 크게 향상되었습니다. CLIP의 제로샷 정확도(93.5%)는 인간 제로샷보다 훨씬 높았지만, 인간은 소수 예제에서 매우 효율적으로 학습하며, CLIP은 현재 소수샷 학습 방법으로 인간의 샘플 효율성을 따라잡지 못했습니다. CLIP에게 어려운 문제는 인간에게도 어려운 경향이 있었습니다.
데이터 중복 분석:
대규모 인터넷 데이터셋으로 사전 학습할 때 다운스트림 평가 데이터와의 의도치 않은 중복 가능성을 조사했습니다. 데이터 중복 감지기를 사용하여 분석한 결과, 35개 데이터셋 중 9개는 중복이 전혀 없었습니다. 감지된 중복의 중앙값은 2.2%, 평균은 3.2%로 작았습니다. 이로 인해 전체 정확도 변화는 거의 없었으며, 가장 큰 개선은 Birdsnap에서 0.6%에 불과했습니다. 이는 훈련 텍스트가 다운스트림 평가 작업과 관련이 없을 수 있기 때문일 수 있습니다. 전반적으로, 이전 대규모 사전 학습 연구의 결과와 유사하게 감지된 중복으로 인한 전체 성능 변화는 미미했습니다. 저자들이 커스텀 데이터셋(WIT)과 YFCC100M 데이터셋으로 동일한 모델을 훈련하여 비교한 결과, 전체 성능은 유사했으나 특정 데이터셋에서는 상당한 성능 차이를 보였습니다. 이는 데이터셋의 관련 데이터 밀도를 반영할 수 있습니다.
한계:
CLIP에는 여전히 많은 한계가 있습니다.
- 훈련 분할이 있는 데이터셋에서 제로샷 성능은 단순 지도학습 기준선과 경쟁적이지만, 이는 최첨단 성능보다 훨씬 낮습니다.
- 특정 유형의 작업(일부 미세 분류, 추상적/시스템적 작업, 새로운 작업)에서 제로샷 CLIP 성능은 여전히 약합니다.
- 정말로 분포 외 데이터(예: 손글씨 MNIST 숫자)에 대해서는 여전히 일반화가 잘 되지 않습니다.
- 미리 정의된 클래스 중에서만 선택 가능하며, 이미지 캡셔닝과 같은 유연성이 부족합니다.
- 딥러닝의 낮은 데이터 효율성을 해결하지 못하고, 엄청난 양의 지도학습 데이터로 보완합니다.
- 평가 방법론의 한계(개발 과정에서 검증 세트 쿼리, CLIP의 개발에 맞춰진 평가 스위트)가 있습니다.
- 필터링되지 않은 웹 데이터에서 사회적 편향을 학습합니다.
- 자연어로 이미지 분류기를 지정하는 것은 복잡한 시각적 개념에 한계가 있습니다.
- 제로샷에서 소수샷 설정으로 전환할 때 성능이 직관적이지 않게 떨어지는데, 이는 인간의 학습 방식과 대조적입니다.
광범위한 영향:
CLIP은 임의의 이미지 분류 작업을 수행할 수 있어 광범위한 기능을 가집니다. 개발자가 재훈련 없이 쉽게 자신만의 클래스를 만들 수 있다는 기능은 중요한 사회적 의미를 가집니다.
- 편향: FairFace 데이터셋을 사용하여 편향을 탐구했습니다. 선형 프로브 CLIP은 기존 모델보다 높은 정확도를 보였으나, 벤치마크 정확도는 실제 편향을 완전히 반영하지 못합니다. 제로샷 CLIP은 범죄 관련 및 비인간 범주 분류에서 인종 및 성별에 따른 불균형한 편향을 보였습니다 (예: 흑인 얼굴이 비인간으로, 남성 얼굴이 범죄 관련으로 더 자주 분류됨). 클래스 설계(예: 'child' 범주 추가)가 이러한 편향 분포에 크게 영향을 미칠 수 있음을 보여줍니다. 직업 및 외모 관련 라벨에서도 성별 편향이 관찰되었습니다. 개발자의 클래스 설계 결정이 편향이 어떻게 나타나는지에 중요한 영향을 미칩니다.
- 감시: 감시 카메라 이미지 분류 및 제로샷 유명인 식별 성능을 평가했습니다. CCTV 이미지에 대한 조악한 분류는 91.8% 정확도를 보였으나, 스트레스 테스트(유사한 클래스 포함)에서는 51.1%로 크게 떨어졌습니다. 작은 객체 감지와 같은 미세 분류는 성능이 낮았습니다. 제로샷 유명인 식별은 100 클래스에서 59.2% 정확도를 보였고, 클래스 수를 늘리면 떨어졌습니다. CLIP은 데이터가 부족한 작업에 이점이 있지만, 안면 인식과 같은 이미 대규모 데이터와 고성능 모델이 존재하는 감시 작업에는 매력이 낮습니다. 그러나 재훈련 없이 커스텀 클래스를 만들 수 있는 유연성은 특정 틈새 감시 사용 사례를 가능하게 할 수 있습니다.
- 향후 연구: CLIP과 같은 모델의 기능, 단점 및 편향에 대한 추가적인 연구가 필요하며, 이는 모델이 유익하게 사용될 영역과 적합하지 않은 영역을 식별하는 데 도움이 될 수 있습니다.
관련 연구:
자연어 지도학습을 사용하여 시각 또는 다른 도메인에 대해 학습하는 연구 라인은 오래되었습니다. CLIP의 사전 학습 작업은 텍스트-이미지 검색을 최적화하며, 이 분야의 연구는 1990년대 중반부터 시작되었습니다. 웹 스케일의 (이미지, 텍스트) 쌍 데이터셋 생성은 최근 연구에서도 나타납니다. 웹 기반 지도 학습(webly supervised learning)은 검색 쿼리를 레이블로 사용하여 이미지 데이터셋을 구축하는 유사한 아이디어입니다. CLIP은 또한 시각 및 언어의 공동 모델 학습 연구와 관련이 있지만, CLIP은 처음부터 시각 모델 학습에 중점을 두고 두 도메인을 조인트 어텐션 모델로 밀집하게 연결하지 않습니다.
결론:
이 논문은 NLP에서 성공적인 작업불가 독립 웹 스케일 사전 학습의 개념을 컴퓨터 비전으로 전이하는 것이 가능함을 조사했습니다. 이러한 방식을 채택하면 컴퓨터 비전 분야에서도 유사한 행동(다양한 작업을 사전 학습 중에 학습하고 자연어 프롬프트를 통해 제로샷 전이 가능)이 나타나는 것을 발견했습니다. 충분한 규모에서 이 접근 방식의 성능은 작업별 지도학습 모델과 경쟁할 수 있지만, 아직 개선의 여지가 많습니다. 이 연구 라인의 사회적 함의도 논의되었습니다.