AI & Statistics Lab

Paper Review

Efficient Audio Transformer (EAT) 논문 리뷰

AIStat 2025. 6. 10. 10:07

이 논문은 레이블되지 않은 오디오로부터 좋은 표현(representations)을 학습하는 것을 목표로 하는 오디오 자기 지도 학습(SSL) 사전 학습 분야의 발전에 관한 내용을 다루고 있습니다. 오디오 SSL은 자연어 처리, 컴퓨터 비전, 음성 처리 분야의 성공에 영감을 받아 등장했으며, 방대한 양의 레이블되지 않은 데이터를 활용하여 데이터 특성을 효과적으로 학습하는 강점을 가지고 있습니다.

그러나 기존 오디오 SSL 모델들은 사전 학습 과정에서 막대한 계산 요구량이라는 상당한 장벽에 직면해 있었습니다. Audio-MAE와 같은 접근 방식은 높은 마스크 비율을 사용하여 인코딩 효율성을 높이려 했지만, 복잡한 디코더가 필요하여 프로세스가 길어지는 경우가 많았습니다. BEATs 같은 다른 모델들은 학습 작업을 단순화하여 사전 학습을 간소화하려 했으나, 이 양적 접근 방식은 객관적 정보 손실을 초래하고 더 많은 사전 학습 반복을 요구할 수 있습니다.

이러한 문제를 해결하기 위해 논문은 Efficient Audio Transformer (EAT) 모델을 도입합니다. EAT는 오디오 SSL의 효율성과 효과성을 더욱 향상시키는 것을 목표로 하며, 이미지 분야의 data2vec 2.0 및 오디오 분야의 Audio-MAE의 성공에서 영감을 받았습니다.

EAT의 주요 특징 및 방법론:

  1. 부트스트랩 자기 지도 학습 패러다임: EAT는 오디오 도메인에 부트스트랩 자기 지도 학습 패러다임을 적용합니다. 이는 BYOL에서 처음 도입된 개념으로, 타겟 인코더가 대표적인 타겟을 생성하고 예측기 네트워크(predictor network)가 입력의 증강된 버전을 사용하여 이 타겟을 예측하는 이중 구성 프레임워크를 포함합니다. EAT에서는 학생 모델이 교사 모델의 타겟 특성을 사용하여 지속적으로 업데이트되며, 교사 모델은 Momentum Contrast (MoCo)와 유사하게 EMA(지수 이동 평균) 기법을 통해 점진적으로 업데이트됩니다.
  2. Utterance-Frame Objective (UFO): EAT는 사전 학습 중 새로운 Utterance-Frame Objective (UFO)를 설계하여 음향 이벤트의 모델링 기능을 향상시킵니다. 기존 모델들이 오디오 패치 재구성이나 이산적 특징 예측에 집중하는 것과 달리, UFO는 전역적인 발화 수준(utterance-level) 표현과 지역적인 프레임 수준(frame-level) 표현을 예측 작업에서 시너지 효과를 내도록 결합합니다.
    • 프레임 수준 학습: MAE 방식을 사용하여 마스킹된 위치의 평균 특성을 경량 CNN 디코더를 통해 예측합니다. 프레임 손실(Lf)은 MSE 손실을 기반으로 합니다.
    • 발화 수준 학습: 학생 모델에 학습 가능한 CLS 토큰을 포함시켜 모든 마스킹되지 않은 패치 임베딩의 정보에 접근하게 합니다. 학생 인코더 출력의 CLS 특성을 사용하여 타겟 값의 패치 차원 평균을 예측하며, 이 역시 MSE 손실(Lu)을 사용합니다. EAT는 추가적인 프로젝터나 예측기 없이 이 직접 회귀 기법을 사용합니다.
    • UFO 손실: 프레임 수준 손실과 발화 수준 손실을 λ라는 하이퍼파라미터로 가중치를 두어 결합합니다 (LUFO = Lf + λLu). 발화 손실의 가중치 λ는 EAT의 전체 성능에 중요한 것으로 나타났습니다. 실험 결과, λ=1과 같은 균형 잡힌 접근 방식이 발화 손실이 없는 경우보다 성능을 향상시키는 것으로 나타났습니다.
  3. 마스킹 전략: 논문은 마스킹 전략이 오디오 SSL 사전 학습에서 중요하며, 큰 역 블록 마스크(large inverse block masks)를 통해 우수한 오디오 표현을 얻을 수 있음을 밝힙니다. EAT는 데이터 인코더에 입력되기 전에 패치 임베딩에 최대 80%의 높은 마스킹 비율을 적용합니다. 이는 Transformer가 처리하는 데이터 볼륨을 크게 줄여 학습 속도를 향상시킵니다. 기존의 오디오 SSL 모델들과 달리, EAT는 이미지 분야의 data2vec 2.0에서 제안된 역 블록 마스킹을 구현합니다. 이 방법은 1D 랜덤 마스킹 대신 오디오 패치를 2D 랜덤 마스크로 변환하여 시간 및 주파수 차원에서 상관관계를 유지합니다. 이를 통해 마스킹되지 않은 데이터가 블록 단위로 보존되어 지역성 영역이 커지고 마스크된 특징 예측의 난이도가 높아집니다.
    • 멀티 마스크 접근 방식: 효율성을 최적화하기 위해 동일한 스펙트로그램 패치에서 여러 역 블록 마스킹을 사용하여 여러 클론 마스크된 임베딩을 생성합니다. 이 변형들은 학생 모델에 동시에 입력되어 병렬 컴퓨팅을 통한 데이터 활용 효율성을 크게 높입니다.
    • 블록 크기의 영향: 실험 결과, 오디오 패치에 대한 역 블록 마스킹(블록 크기 S > 1x1)이 랜덤 마스킹(S = 1x1)보다 성능이 우수했습니다. 고정된 80% 마스크 비율에서 블록 크기를 적절히 늘리는 것이 모델 성능 향상에 기여했습니다. 블록 크기가 작으면 모델이 마스크된 부분을 추론하기 쉬워 오디오 표현을 깊이 이해하는 능력이 제한되는 반면, 충분히 큰 블록을 사용하면 가시적인 오디오 패치와 마스크된 오디오 패치 간의 상호 정보량을 효과적으로 줄여 모델이 더 제한된 정보로부터 특징을 추출하고 알려지지 않은 패치를 예측하도록 돕습니다.
  4. 비대칭 네트워크 구조: EAT는 복잡한 Transformer 인코더와 경량 CNN 디코더를 결합한 비대칭 네트워크 구조를 설계했습니다. 이 설정은 특성을 효율적으로 디코딩하여 정밀한 프레임 수준 특성 예측을 용이하게 합니다. 복잡한 인코딩은 더 작은 데이터(가시적인 패치)에 적용되고, 간단한 디코더는 전체 데이터(가시적인 특성과 마스크된 토큰 포함)를 처리하여 빠른 사전 학습이 가능합니다. 학생 모델은 표준 Transformer 인코더를 사용하고, 교사 모델은 같은 네트워크를 사용하지만 마스킹되지 않은 전체 입력 패치를 처리합니다.

실험 결과:

EAT는 AudioSet-2M (AS-2M) 데이터셋으로 사전 학습되었고, AS-2M, AS-20K, ESC-50 (환경음 분류), SPC-2 (음성 명령 분류) 데이터셋에서 성능이 평가되었습니다.

  • SOTA 성능: EAT는 AS-2M, AS-20K, ESC-50 데이터셋에서 오디오 분류 작업의 State-of-the-Art (SOTA) 성능을 달성했습니다.
    • AS-2M에서 mAP 48.6%로 이전 SOTA보다 0.6% 향상.
    • AS-20K에서 mAP 40.2%로 이전 SOTA보다 1.9% 향상.
    • ESC-50에서 정확도 95.9%로 평균 오류율을 4.4%에서 4.1%로 감소.
    • SPC-2 음성 분류 작업에서도 98.3%의 경쟁력 있는 정확도를 달성하며 이전 SOTA 모델과 일치하는 성능을 보였습니다.
  • 사전 학습 효율성: EAT 모델은 기존 SOTA 오디오 자기 지도 학습 모델에 비해 사전 학습 단계에서 탁월한 효율성을 보여줍니다.
    • 단 10 Epoch의 사전 학습으로 BEATsiter3에 비해 총 사전 학습 시간을 15.65배 단축, Audio-MAE에 비해 10.02배 단축했습니다.
    • EAT는 단 2 Epoch 이후 Audio-MAE의 성능과 일치했고, 5 Epoch까지 BEATsiter3를 넘어섰습니다.
    • 이러한 효율성 향상은 높은 마스크 비율(80%)과 경량 CNN 디코더를 사용하는 UFO 함수 덕분입니다. 또한 멀티 마스크 전략을 통해 다양한 관점에서 파편화된 오디오를 학습하여 데이터 활용도를 높인 것도 기여했습니다.

기타 세부 사항:

  • EAT는 오리지널 파형 대신 오디오 스펙트로그램에서 작동하도록 설계되었습니다. CNN 인코더를 사용하여 오디오 스펙트로그램 특징을 다운샘플링하고 패치 임베딩을 추출하며, 고정된 1D 위치 임베딩이 적용됩니다.
  • 미세 조정을 위해 학생 Transformer 인코더를 사용하여 잠재 표현을 생성하고 원래 CNN 디코더를 오디오 카테고리 예측을 위한 선형 레이어로 대체합니다. 또한 SpecAug, mixup, droppath, audio rolling, random noise 등 여러 데이터 증강 기법이 사용됩니다. 분류 작업에서는 CLS 토큰이 최종 예측에 사용되며, 이는 평균 풀링 방법보다 성능이 향상됨을 보여주었습니다.

결론:

EAT는 효과적이고 효율적인 오디오 기반 자기 지도 학습을 위한 새로운 모델입니다. 사전 학습 과정을 크게 가속화하고 탁월한 성능을 제공한다는 점에서 두드러집니다. 핵심은 새로운 Utterance-Frame Objective (UFO) 손실의 사용이며, 이는 오디오 잠재 표현 학습에 필수적임이 입증되었습니다. 발화 수준 학습의 통합, 프레임 수준 학습과의 균형 잡힌 손실 가중치 조절, 그리고 미세 조정에서의 CLS 토큰 기반 예측을 통해 전역 오디오 특징을 효과적으로 캡처합니다. EAT는 AudioSet, ESC-50, SPC-2를 포함한 여러 오디오 및 음성 분류 작업에서 SOTA 결과를 달성했으며, 전반적인 성능 면에서 기존 기반 오디오 SSL 모델들을 능가합니다. 높은 마스크 비율을 가진 역 블록 멀티 마스크 방법의 구현은 EAT의 사전 학습 속도를 높이는 데 기여했으며, Audio-MAE 및 BEATs와 같은 모델보다 10배 이상 빠른 시간 효율성을 보였습니다.

논문 저자들은 미래에 EAT를 스케일 업하여 성능 잠재력을 further 탐색하고, 오디오-음성 공동 학습을 조사하여 이 두 도메인 간의 상호 작용을 탐구할 계획입니다.