이 논문은 레이블되지 않은 오디오로부터 좋은 표현(representations)을 학습하는 것을 목표로 하는 오디오 자기 지도 학습(SSL) 사전 학습 분야의 발전에 관한 내용을 다루고 있습니다. 오디오 SSL은 자연어 처리, 컴퓨터 비전, 음성 처리 분야의 성공에 영감을 받아 등장했으며, 방대한 양의 레이블되지 않은 데이터를 활용하여 데이터 특성을 효과적으로 학습하는 강점을 가지고 있습니다.그러나 기존 오디오 SSL 모델들은 사전 학습 과정에서 막대한 계산 요구량이라는 상당한 장벽에 직면해 있었습니다. Audio-MAE와 같은 접근 방식은 높은 마스크 비율을 사용하여 인코딩 효율성을 높이려 했지만, 복잡한 디코더가 필요하여 프로세스가 길어지는 경우가 많았습니다. BEATs 같은 다른 모델들은 학습 작업..