언어 기반 오디오 검색 시스템은 오디오 클립과 텍스트 질의를 공유 의미 공간에 인코딩하여, 관련성이 높은 오디오-텍스트 쌍이 높은 유사도를 갖도록 하는 데 목적이 있습니다. 최근 최고 성능을 보이는 방법들은 듀얼 인코더 아키텍처(오디오 인코더와 텍스트 인코더를 분리)와 대조 학습(contrastive objective)을 결합하며, 이는 크로스모달 정렬을 위해 CLIP 패러다임에서 영감을 받은 경우가 많습니다. 아래에서는 최신 연구(예: DCASE 2024 Task 8) 및 관련 벤치마크를 바탕으로, 최첨단 아키텍처, 학습 전략, 데이터 활용, 증강 기법, 그리고 모범 사례를 소개합니다.
모델 아키텍처
오디오 인코더: 최신 시스템들은 대규모 오디오 데이터셋으로 사전 학습된 고용량 오디오 인코더를 활용합니다. 대표적인 선택지는 다음과 같습니다.
- PaSST (Patchout Spectrogram Transformer): AudioSet에서 오디오 태깅 용도로 사전 학습된 트랜스포머 모델로, 여러 상위권 시스템에서 사용되었습니다. 예를 들어 삼성의 2024년 제출 시스템은 오디오 분기로 PaSST-S(경량 변형)를 사용했습니다. PaSST는 로그-멜 스펙트로그램 입력에 패치 드롭아웃을 적용해 정규화를 강화하며, 견고한 오디오 임베딩을 생성합니다.
- BEATs: 마이크로소프트가 제안한 Bidirectional Encoder representation from Audio Transformers로, 자가 지도 학습으로 사전 학습되었습니다. 삼성 SRCN 팀은 BEATs를 오디오 인코더로 활용해 우수한 성능을 달성했습니다. BEATs는 음향 토크나이저 방식을 사용해, 텍스트에서 BERT가 하는 역할과 유사하게 풍부한 음향 특징을 제공합니다.
- VAST 모델: VAST(omni-modality foundation model)에서 파생된 오디오 인코더로, 2,700만 개의 오디오·비전·자막·텍스트가 포함된 비디오 클립으로 학습되었습니다. 거대한 규모에서 오디오-텍스트 대응 관계를 학습했으며, SRCN 팀은 이를 검색 태스크에 파인튜닝해 성공을 거두었습니다. DCASE 2024의 LY 팀도 PaSST, BEATs, CAV-MAE와 함께 VAST 인코더를 실험했습니다.
- CAV-MAE: Contrastive Audio-Visual Masked Autoencoder로, 오디오와 비주얼 데이터를 공동으로 사전 학습했습니다. 마스킹 복원과 비디오와의 대조 정렬을 통해 오디오 표현을 학습하며, 범용 오디오 특징 추출에 효과적입니다.
- CLAP 및 AudioCLIP: CLAP(Contrastive Language–Audio Pretraining) 은 CLIP 방식의 듀얼 인코더 모델(예: LAION-CLAP)로, 수십만 개 오디오-텍스트 쌍을 학습했습니다. 일반적으로 트랜스포머 기반 오디오 인코더(HTSAT·CNN14 등)와 텍스트 인코더(BERT)를 사용하며, InfoNCE 손실로 두 모달리티를 정렬합니다. (Hugging Face Transformers에 LAION-CLAP 구현이 공개돼 있음). AudioCLIP은 이미지-텍스트 CLIP에 오디오 분기를 추가한 초기 3-모달 확장 버전으로, AudioSet-사전학습 CNN을 오디오 인코더로 사용했습니다. CLAP과 AudioCLIP은 폭넓은 오디오-텍스트 대응을 학습해 제로-샷 검색이 가능하며, 과제 데이터에 파인튜닝하면 성능이 크게 향상됩니다.
- Whisper(ASR 인코더): Whisper는 주로 음성 인식 모델이지만, 오디오 인코더 자체가 음성 내용과 잡음에 강인합니다. 일반적인 비음성 사운드 검색에는 자주 쓰이지 않지만, 오디오에 포함된 음성을 텍스트로 추출해 보조 정보로 활용할 수 있습니다. 다만 모든 사운드 이벤트를 포괄해야 하는 검색 작업에는 PaSST, CLAP 등 전용 오디오 인코더가 대체로 더 적합합니다.
텍스트 인코더: 대규모 말뭉치로 사전 학습된 트랜스포머 계열 언어 모델이 사실상 표준입니다. 다수 시스템이 BERT나 RoBERTa(특히 large 버전)를 사용해 질의를 임베딩했습니다. 예를 들어 CP-JKU 팀은 RoBERTa-large를, 다른 팀들은 BERT-base 또는 BERT-large를 채택했습니다. 일부 팀은 GTE-large(General Text Encoder로 추정, T5·GPT 계열 인코더일 가능성)와 같은 모델을 실험해 더 풍부한 의미 표현을 확보하기도 했습니다. 실제로 T5, Sentence-BERT 등 의미 있는 문장 벡터를 생성할 수 있는 임베딩 모델이면 무엇이든 활용 가능합니다. 텍스트 인코더는 보통 동결(freeze)하거나 소폭 파인튜닝해 과적합을 막지만, 일부 팀은 오디오 인코더와 함께 적극적으로 미세조정하기도 했습니다.
공유 임베딩공간: 오디오 인코더와 텍스트 인코더의 출력 벡터는(대개 선형 계층을 거쳐) 공통 임베딩 공간으로 투영됩니다. 학습 목표는 짝이 맞는 오디오-텍스트 쌍이 높은 유사도(예: 코사인 유사도)를, 짝이 맞지 않는 쌍은 낮은 유사도를 갖도록 만드는 것입니다. 이러한 듀얼 인코더 기반 2-모달 임베딩 설계는 검색 효율성이 높습니다. 데이터베이스 오디오의 특징 벡터를 사전 계산·색인해 두고, 텍스트 질의를 인코딩한 뒤 단순 내적(또는 코사인) 연산으로 빠르게 비교할 수 있기 때문입니다.
크로스모달 융합 대안: 독립적 인코더 대신, 오디오와 텍스트를 단일 네트워크에서 융합하는 연구도 있습니다. 예를 들어 코-어텐션(co-attention) 네트워크는 트랜스포머 레이어가 오디오·텍스트 특징을 교차 주의(attend)해 세밀한 정렬을 학습합니다. 2024년의 한 최신 연구는 계단식(cascaded) 코-어텐션 구조를 제안해 오디오-텍스트 정렬을 반복적으로 정제했으며, 듀얼 인코더 베이스라인 대비 Clotho에서 mAP 약 16%p 향상을 보고했습니다. 이러한 어텐션 기반 융합은 “특정 단어 ↔ 특정 소리 이벤트”처럼 듀얼 인코더가 놓치기 쉬운 미세 상호작용을 포착할 수 있습니다. 다만, 완전 융합 모델은 쿼리-후보 쌍마다 통째로 네트워크를 돌려야 하므로 대규모 실시간 검색에는 무겁습니다. 실전에서는 듀얼 인코더로 1차 검색 후, 상위 결과에 크로스어텐션 재랭킹 모델을 적용해 정밀도를 높이는 두 단계 방법이 자주 쓰입니다. 실제로 DCASE 2024 상위권 시스템 대다수는 대규모 데이터로 사전 학습한 듀얼 인코더에 정교한 학습 기법을 결합하는 방식을 고수했습니다. 그럼에도 어텐션 융합 접근은 향후 검색 정확도를 추가로 끌어올릴 유망한 연구 방향으로 평가됩니다.
멀티모달 학습 전략
대조 학습(Contrastive Learning): 거의 모든 최첨단 시스템은 대조 손실을 사용하여 올바른 오디오–캡션 쌍이 잘못 짝지어진 쌍보다 더 높은 유사도를 갖도록 학습합니다. 표준 방식은 양방향 InfoNCE 손실(사실상 CLIP 손실)로, 한 배치에 포함된 각 오디오(또는 캡션)에 대해 실제 짝은 양성(positive), 나머지 모든 조합은 음성(negative) 으로 취급합니다. 이는 오디오→텍스트와 텍스트→오디오 비교 모두에 대칭적 교차 엔트로피(NT-Xent, Normalized Temperature-Scaled Cross-Entropy) 형태로 구현됩니다. InfoNCE 대조 학습은 여러 상위권 팀(대개 CLAP 프레임워크를 인용)이 명시적으로 사용했습니다. 예를 들어 Samsung R&D Poland는 InfoNCE 기반 듀얼 인코더 한 개만으로 mAP@10 ≈ 41 %를 달성했습니다. 대조 학습은 모달리티 정렬에 매우 효과적이지만, 음성 샘플링과 배치 규모를 신중히 다루는 것이 중요합니다.
트리플릿 및 기타 손실: 이전 연구(예: DCASE 2022 베이스라인)는 트리플릿 랭킹 손실을 사용했습니다. 모델은 (앵커 오디오, 양성 캡션, 음성 캡션) 삼중 쌍을 보고, 양성이 음성보다 높은 점수를 받도록 학습합니다. 트리플릿 손실도 효과적이지만, 배치 전체를 음성으로 활용하는 InfoNCE가 안정성과 대규모 음성 활용 측면에서 선호됩니다. 한편, 부드러운(soft) 대조 손실을 도입해 추가 양성 또는 세미-양성을 포함하려는 연구도 있습니다. 2024년 연구 하나는 서로 비슷한 내용을 묘사하는 두 캡션의 경우 해당 오디오들을 완전한 음성이 아닌 연관 음성(semi-negative) 으로 간주하여, 일반 대조 학습보다 검색 성능을 향상시켰습니다. 또 다른 접근은 지식 증류(knowledge distillation)입니다. 강력한 앙상블이나 크로스-어텐션 모델을 교사(teacher) 로 삼고 듀얼 인코더를 학생(student) 으로 지도하는 방식입니다. CP-JKU 팀은 먼저 대규모 데이터로 대조 모델을 학습한 뒤, Clotho에서 모델 앙상블로부터 지식 증류를 수행하여 단일 모델 mAP@10을 약 2 %p 끌어올렸습니다.
하드 네거티브 마이닝(Hard Negative Mining): 서로 매칭되지 않았지만 의미적으로 유사한 오디오–텍스트 쌍(어려운 음성)을 발굴해 학습에 활용하면 대조 학습 성능이 향상되는 것으로 알려져 있습니다. 모든 비짝(non-pair)을 동일하게 취급하지 않고, 예컨대 오디오와 거의 맞을 법한 캡션 같은 어려운 케이스에 손실을 집중시키는 방식입니다. 오디오-텍스트 검색에서는 교차 모델 점수를 활용해 세미-하드 음성을 찾는 전략이 쓰입니다. 예를 들어 주기적으로 “잘못 높게 순위가 오른” 오류 쌍을 추출해 훈련 음성으로 명시적으로 포함하는 식입니다. 한 연구는 모델 점수 기반 세미-하드 음성 샘플링이 무작위 샘플링보다 텍스트→오디오, 오디오→텍스트 검색 모두에서 성능이 우수함을 확인했습니다. 여러 DCASE 팀도 Clotho 파인튜닝 과정에서 암묵적으로 이 방식을 활용했습니다. 초기 학습 후 모델 스스로 혼동되는 쌍을 식별해 추가 학습에 반영한 것입니다. 특히 CP-JKU의 SALSA 방법은 한 걸음 더 나아가 잠재적 양성(pseudo-positive) 을 추정했습니다. 즉, 실제로는 잘 맞을 수도 있는 오디오-캡션 쌍을 찾아내어, 이들을 음성으로 과도하게 패널티 주지 않도록 했습니다. 이렇게 음성을 정교하게 다루는 접근(모든 불일치 쌍이 틀렸다고 가정하지 않음)이 2024년 Task 8 우승을 가능케 했습니다.
멀티태스크 목표(Multi-Task Objectives): 일부 상위권 시스템은 주 대조 손실 옆에 보조 목표를 추가해 학습을 개선했습니다. 예컨대 Samsung SRCN(난징) 팀은 세 가지 손실을 병렬로 학습했습니다: (1) 오디오-텍스트 대조(InfoNCE), (2) 오디오-텍스트 매칭 분류(해당 쌍이 진짜/가짜인지 이진 예측), (3) 텍스트 인코더의 MLM(Masked Language Modeling). 매칭 분류 손실은 쌍별 이진 크로스엔트로피로, 배치 소프트맥스(InfoNCE)만으로는 부족할 수 있는 “정답 vs 오류” 구분 능력을 강화합니다. MLM은 텍스트 인코더가 마스킹된 단어를 예측하도록 강제해, 언어 이해를 유지하며 좁은 캡션 스타일에 과적합되지 않도록 정규화 역할을 합니다. 이러한 멀티태스크 학습은 표현력을 높여 단일 모델로 Clotho에서 mAP@10 ≈ 37 %, R@1 ≈ 24.4 %를 기록했으며, 앙상블 시 mAP ≈ 40.6 %까지 도달했습니다. 일반적으로 오디오 태깅이나 캡션 생성과 같은 부가 과제를 함께 학습하면 추가 지식을 주입할 수 있습니다. 예컨대 오디오 인코더에 AudioSet 태그 또는 소리 이벤트 레이블 예측을 부여하면, 캡션에 등장하는 핵심 소리 이벤트를 더 잘 포착하도록 유도할 수 있습니다.
커리큘럼 및 단계별 학습(Curriculum and Stage-wise Training): 데이터가 매우 다양하다는 점(다음 섹션 참고)을 감안해, 많은 팀이 2단계 학습 전략을 채택했습니다. 먼저 대규모 외부 오디오-캡션 데이터셋으로 사전 학습(pre-training) 을 수행한 뒤, Clotho로 파인튜닝(fine-tuning) 하는 방식입니다. 이는 포괄적→특정으로 이어지는 커리큘럼이라 볼 수 있습니다. 사전 학습 단계에서는 수십만 쌍(다소 노이즈가 있거나 약하게 라벨된) 데이터를 통해 일반적인 오디오-언어 정렬을 학습합니다. 그다음 규모는 작지만 품질이 높은 Clotho 데이터로 미세조정해, 챌린지 도메인과 평가 지표에 맞게 모델을 적응시킵니다. 일부 팀은 데이터 품질 기준의 커리큘럼도 적용했습니다. 예를 들어 SRPOL 팀은 1,080만 개의 비디오-캡션 쌍을 수집했지만, 이를 그대로 쓰지 않고 모델-인-더-루프로 저품질 샘플을 걸러낸 뒤 GPT-4로 남은 캡션을 음향 중심으로 다시 표현했습니다. 이렇게 신뢰할 만한 샘플부터 시작해 점차 데이터(또는 캡션)를 확대·정제함으로써, 모델은 먼저 “쉬운”(깨끗한) 예시를 학습하고 이후 더 다양한 예시를 접하게 됩니다. 덕분에 노이즈 많은 웹 데이터 환경에서도 학습이 안정적으로 진행됩니다. 커리큘럼은 음성(negative) 난이도 스케줄링에도 적용될 수 있습니다. 초기에는 무작위 음성을 사용하고, 모델 구분력이 높아지면 하드 음성 위주로 손실을 집중시켜 성능을 끌어올리는 식입니다. 비록 모든 팀이 명시적으로 커리큘럼을 밝혔다고 보긴 어렵지만, 이러한 관행은 학습 수렴을 개선한 공통된 비결로 평가됩니다.
앙상블 및 모델 융합(Ensembling and Model Fusion): 단일 모델 학습 기법은 아니지만, 다수 상위권 제출물은 여러 모델을 결합해 최종 성능을 높였습니다(임베딩 벡터 또는 유사도 점수를 평균). 예컨대 PaSST + BEATs + VAST처럼 서로 다른 오디오 인코더를 조합하거나, 다른 랜덤 시드로 학습한 모델을 앙상블해, Clotho에서 mAP@10 41–42 % 수준까지 달성했습니다. 자원이 허용된다면, 보완적인 모델 몇 개를 훈련한 뒤 추론 시 앙상블하면 mAP와 Recall을 몇 퍼센트포인트 더 끌어올릴 수 있습니다. 다만 앙상블은 결국 위에서 소개한 전략들을 여러 번 실행하는 것이므로, 각 모델이 충분히 강력하고 다양성(아키텍처·데이터 구성이 다른 점)을 확보해야 효과가 극대화됩니다.
데이터셋 및 파인튜닝
주 데이터셋(Clotho v2.1): Clotho는 DCASE 오디오 캡셔닝∙검색 공식 데이터셋으로, 약 5 천 개 오디오 클립(각 15–30 초, Freesound 출처)마다 사람이 작성한 캡션 5개가 제공됩니다. Task 6/8에서는 Clotho의 development 세트로 모델을 학습하고, evaluation 세트(캡션 1 천 개를 질의로 사용, 오디오 1 천 개 대상 검색)로 평가합니다. Clotho 캡션은 고유한 문체를 가지며 오디오도 Freesound 기반이므로, Clotho 파인튜닝은 mAP@10·R@K를 최적화하는 데 필수적입니다. 상위권 시스템들은 모두 마지막 단계에서 Clotho v2.1 데이터로 추가 학습을 수행했습니다. 일반적으로 낮은 학습률로 대조 학습을 몇 에포크 더 이어가거나, 앞서 설명한 지식 증류를 Clotho에서 수행합니다. 필요하다면 Clotho에 외부 데이터를 소량 섞을 수도 있으나, 보통 마지막 단계에서는 Clotho 적합에 중점을 두며(때로는 Clotho를 오버샘플링하기도 함).
보조 오디오-캡션 데이터셋: Clotho 규모가 작다는 한계를 극복하기 위해, 최신 모델들은 아래와 같은 대규모 외부 데이터를 활용합니다.
- AudioCaps: 약 4.9 만 개의 오디오 클립(모두 AudioSet에서 추출)과 크라우드소싱으로 작성된 캡션 1개씩으로 구성된 데이터셋입니다. 대부분 YouTube 영상에서 추출된 일상 생활 사운드를 폭넓게 포함하며, 사실을 간단히 서술한 단문 형태의 캡션이 특징입니다. AudioCaps는 거의 모든 상위권 팀이 선택할 정도로 보편적으로 사용되며, 오디오–텍스트 정렬을 위한 탄탄한 기반 데이터를 제공합니다.
- WavCaps: 약 40만 개의 오디오–캡션 쌍으로, 2023년에 ChatGPT를 이용해 여러 출처(예: Freesound, BBC Sound Effects 등)의 사운드에 캡션을 자동 생성해 만든 데이터셋입니다. GPT-3.5/4가 작성한 설명문이므로 품질은 사람 주석보다 다소 낮지만, 규모가 매우 크다는 장점이 있습니다. 실제로 WavCaps로 사전 학습한 뒤 사람 캡션 데이터로 파인튜닝하면 검색 성능이 크게 향상되었습니다. 많은 팀이 WavCaps로 초기 학습을 진행하고, 이후 휴먼 캡션 데이터로 미세 조정하는 전략을 택했습니다.
- MACS: Multi-Annotator Captioned Soundscapes라는 이름의 소규모(약 4천 클립) 데이터셋으로, 도시 사운드스케이프 오디오와 이에 대한 다중 캡션이 포함되어 있습니다. 환경음과 배경음 묘사가 풍부해 데이터 다양성을 높이기 위해 일부 팀이 추가 사용했습니다. 규모는 작아 영향력이 크진 않지만, 사람이 주석한 데이터이므로 미세한 뉘앙스 파인튜닝에 도움이 될 수 있습니다.
- LAION-Audio-630K: 2023년 Wu 등이 소개한 63만 개 규모의 웹 크롤링 오디오-텍스트 쌍 모음으로, 이미지 분야의 LAION에 대응하는 오디오 버전이라 볼 수 있습니다. 삼성 난징 팀은 학습 과정에서 “Laion630k”를 명시적으로 활용해 학습 데이터를 대폭 확장했습니다. LAION-Audio는 콘텐츠가 매우 다양하며, 이 데이터로 사전 학습된 모델(예: LAION-CLAP)은 제로-샷 성능이 우수한 것으로 보고되었습니다.
- 기타 보조 리소스: AudioSet(태그 포함)은 클래스 라벨을 의사(PS) 캡션으로 변환해 사용하거나, 약한 형태의 추가 학습 데이터로 활용한 사례가 있습니다(한 팀은 AudioSet 태깅을 CLAP 학습과 결합). FSD50K은 Freesound 기반 오디오 이벤트 데이터셋으로, 삼성 SRCN 팀이 클립 라벨 또는 텍스트 메타데이터를 추가 “캡션” 형태로 활용했습니다. WavText5K & SoundDescs(BBC 효과음 설명)은 각각 약 5 천 개 규모의 웹 스크래핑 캡션과 BBC 사운드 효과 설명으로, 규모는 작지만 다른 풀과 합쳐 사용 가능합니다. Auto-ACD 등은 TTS나 기타 방식으로 생성된 합성 오디오 캡션 데이터를 의미할 가능성이 있으며, 모델 학습을 보완하기 위해 쓰일 수 있습니다.
외부 데이터셋을 활용할 때는 데이터 정제(data curation)를 신중히 수행해야 합니다. 특히 데이터 누출(data leakage)을 방지하는 것이 필수적입니다. Clotho의 오디오는 모두 Freesound에서 가져왔기 때문에, 외부 데이터에 동일한 Freesound 클립이 포함되어 있으면 학습 단계에서 반드시 제거해야 합니다. 챌린지 주최 측은 평가용 클립에 해당하는 Freesound ID 제외 목록을 제공했으며, 모든 팀은 해당 ID(및 관련 캡션)가 학습 데이터에 존재하지 않도록 확인해야 했습니다. 예를 들어 AudioCaps나 WavCaps를 사용할 경우, Clotho 평가 세트와 중복되는 항목을 제거해야 합니다(공개 사이트인 Freesound 특성상 Clotho 클립이 WavCaps 등에도 포함되었을 수 있음). 이를 제외하지 않으면 데이터 누출로 간주되어 페널티를 받게 됩니다. 실제로 각 팀은 Freesound ID를 교차 대조(cross-reference)해 학습 세트를 정확히 가지치기(prune) 하여 공정한 평가를 유지했습니다.
전이 학습 및 파인튜닝 프로토콜: 전형적인 절차는 다음과 같습니다: 사전 학습 체크포인트 초기화 (예: CLAP 사전 학습 모델 또는 AudioCaps+WavCaps로 선학습한 자체 모델), Clotho(학습+검증) 로 파인튜닝. 공식 평가셋에는 라벨이 없으므로, 다수 팀이 Clotho development + validation 전체를 학습에 사용하고, 숨겨진 evaluation split으로 성능을 측정했습니다. 에포크 수는 적게(수 에포크) 돌리되, 학습률을 크게 낮추거나 특정 층을 동결(freeze) 하는 방식으로 과적합을 방지합니다 (예: 대형 HTSAT 오디오 인코더는 하위 층을 동결하고, 상위 층·프로젝션 층만 Clotho에서 미세조정). 반대로 모델 전체를 학습 가능 상태로 두는 대신 강력한 정규화(드롭아웃, 증강 등; 다음 섹션 참고)를 적용하기도 합니다. CP-JKU 팀은 Clotho 파인튜닝 시 지식 증류를 도입했습니다: 모든 데이터로 학습한 여러 모델을 앙상블 teacher로 구성하였고, 이 앙상블이 생성한 “소프트” 목표(유사도 점수)를 Clotho 데이터에 부여하였습니다. 그리고 단일 student 모델이 해당 출력을 모방하도록 학습하였습니다. 이렇게 하면 추론 시 다중 모델을 유지하지 않고도 앙상블의 지식을 단일 모델에 압축해 일반화 성능을 향상시킬 수 있습니다.
마지막으로, 일부 팀은 Clotho 전용으로 합성 캡션이나 메타데이터를 제작해 활용했습니다. 예컨대 SRPOL(폴란드) 팀은 GPT-3.5를 이용해 Clotho의 기존 캡션을 추가 파라프레이즈로 확장하는 “Clotho caption mixing” 기법을 적용했습니다. 이 방식으로 파인튜닝 단계에서 각 오디오가 더 다양한 설명 문장과 매칭되는 효과를 얻어, 오디오와 의미적 표현 사이의 연결을 한층 강화했습니다. 이렇게 대상 데이터셋에 특화된 증강을 수행하면 mAP(평균 정밀도) 을 소폭이라도 추가로 끌어올릴 수 있습니다.
데이터 전처리 및 증강
라벨이 제한된 상황에서 모델의 견고성을 높이려면 증강(Augmentation) 이 필수적입니다. 오디오와 텍스트 모두를 증강할 수 있으며, 우선 오디오 측면을 살펴보면 다음과 같습니다.
오디오 증강(Audio Augmentation): 인코더가 소리의 작은 변형에도 불변(invariant)한 특징을 학습하도록 하는 것이 목표입니다.
- 스펙트로그램 변형(Spectrogram Transformations): 다수 팀이 SpecAugment 스타일의 마스킹을 적용했습니다. 시간 마스킹(Time masking)은 로그-멜 스펙트로그램에서 임의의 시간 구간(예: 0.5초)을 가립니다. 주파수 마스킹(Frequency masking)은 128개의 멜 밴드 중 약 20개를 무작위로 가립니다. 이렇게 하면 오디오 인코더가 특정 시·주파수 영역에 과도하게 의존하지 않도록 도와줍니다. 일부 팀은 타임 스트레칭/피치 시프팅(보고서에 명시되진 않았지만 frequency warping 언급)도 사용했습니다. 이는 재생 속도를 약간 변경하거나 음높이를 조정해 데이터 다양성을 높이는 방법입니다.
- PatchOut: AST/PaSST와 같은 트랜스포머 기반 인코더에서는 패치 드롭아웃(PaSST에 내장된 증강 기법)인 PatchOut을 사용했다. PatchOut은 스펙트로그램의 2D 토큰 그리드에서 패치를 무작위로 제거해, 모델이 입력의 모든 부분에 주의를 기울이고 특정 시간-주파수 패치에 과적합되지 않도록 강제한다.
- Mixup and Mixco: Mixup은 두 개의 오디오 파형(또는 그 스펙트로그램)을 섞어 두 소리가 결합된 새로운 학습 샘플을 만드는 기법이다. 분류 문제에서는 라벨도 같은 비율로 혼합하지만, 검색 작업에서는 혼합 오디오를 두 캡션 모두에 매칭하거나 각 캡션에 대한 추가 학습 쌍으로 활용할 수 있다(모호성이 생길 수 있음). 여러 팀이 오디오 증강으로 mixup을 사용했다고 보고했다. 삼성 SRCN은 “mix-up as the data augment policy during pre-training”이라 명시하며, 일부 오디오 클립을 섞고 이를 원본 또는 병합 캡션과 짝지워 학습했음을 시사했다. MixCo(Mixup-Contrastive) 는 혼합 예시를 세미-포지티브(semi-positive) 쌍으로 활용하는 Mixup의 변형이다. 원래 이미지-텍스트 대조 학습용으로 제안된 MixCo는 양성과 음성 사이 중간 지점에 해당하는 임베딩을 생성하고, 모델이 이를 양성에 어느 정도 유사하게 취급하도록 학습시킨다. LY 팀은 오디오-텍스트 학습에서 MixCo를 적용했다. 오디오 A와 B를 혼합한 뒤 A의 캡션을 사용하면, 혼합 오디오는 순수 A보다 캡션 A와 약간 낮은 유사도를, 무관한 오디오보다는 높은 유사도를 갖도록 학습된다. 이러한 “중간 단계” 음성은 모델이 더 부드러운 임베딩 공간을 형성하도록 돕는다. 요약하면, mixup 기반 증강은 추가적이고 다양한 학습 쌍을 제공해 모델을 겹치는 소리에 대해 더욱 견고하게 만든다.
- Background Noise & Impulse: DCASE 보고서에 명시적으로 기술되지는 않았지만, 증강 기법으로 오디오에 무작위 배경 잡음을 추가하거나 무작위 임펄스 응답(리버브) 과 컨볼루션을 적용할 수 있다. 이러한 방법은 다양한 녹음 조건을 시뮬레이션하기 위해 오디오 작업에서 흔히 사용된다. 모델이 작은 잡음에도 쉽게 취약해지지 않도록 함으로써, 특히 리콜(recall) 지표에서 검색 성능을 개선할 수 있다.
- Multi-sample Augmentation: LY 팀은 추론 단계에서 질의 증강(query augmentation) 을 도입했다. ChatGPT를 활용해 텍스트 질의를 파라프레이즈(paraphrasing) 한 여러 버전을 생성한 뒤 각 버전으로 검색을 수행하고, 최종적으로 결과를 앙상블했다. 이는 추론 시 텍스트 측 증강이지만, 개념적으로 학습 단계에서도 유사한 방식을 적용할 수 있다(예: 하나의 오디오를 약간씩 다른 여러 캡션과 짝지어 학습하는 방법—실제로 일부 팀이 GPT 파라프레이즈로 이를 수행).
Text Augmentation: 캡션은 비교적 짧은 단문이지만, 이를 증강하면 텍스트 인코더의 견고성이 높아지고 동일한 의미의 다양한 표현을 모델이 학습할 수 있다.
- Basic NLP Augmentations: 팀들은 무작위 단어 삭제(random word deletion), 단어 순서 섞기(word order shuffle), 동의어 치환(synonym replacement)과 같은 전통적인 기법을 적용했다. 예컨대 캡션에서 임의 형용사를 제거하거나 단어 두 개의 순서를 바꾸면, 모델은 정확한 문구 대신 핵심 의미에 의존하도록 학습된다. 동의어 사전(Thesaurus)이나 WordNet을 사용해 일부 단어를 동의어로 교체하는 것도 비슷한 효과가 있다. 단, 의미가 유지되도록 주의해야 한다(예: “small”을 “little”로 바꾸는 것은 괜찮지만, “bass”를 “low-frequency”로 바꾸면 문맥이 보존되지 않아 혼란을 줄 수 있음).
- Back-Translation: 캡션을 다른 언어로 번역한 뒤 다시 영어로 역번역하여 파라프레이즈를 생성하는 기법이다. SRPOL 팀은 GPT-4를 사용해 캡션을 역번역했으며, 다른 팀들도 기계 번역 API로 같은 작업을 수행했다. 역번역은 단순 동의어 치환보다 자연스러운 파라프레이즈를 만들어 낼 수 있다(예: “a dog is barking loudly” → [독일어] → “a dog barks loudly”). 이를 통해 모델이 학습 단계에서 본 정확한 문장 형태에 과적합되지 않도록 도움을 준다.
- LLM Paraphrasing and Mixing: 2024년 시스템들은 대규모 언어 모델(LLM)을 적극 활용해 새로운 학습 텍스트를 생성했다. 한 팀은 GPT-4로 비디오 캡션을 오디오 중심으로 재작성(예: 시각 정보 제거, 소리 묘사 강조)해 거대 비디오-사운드 데이터셋을 확장했다. 또 GPT-3.5를 활용해 Clotho용 “caption mixing”(Clotho의 여러 캡션 요소를 조합하거나 다른 문장과 병합해 설명을 풍부화)도 수행했다. 이렇게 하면 동일 오디오에 대한 표현 어휘가 다양해진다. 또한 상위권 팀들은 추론 단계에서 LLM으로 여러 질의 파라프레이즈를 생성했다. 예컨대 LY 팀은 ChatGPT로 사용자 질의를 여러 형태로 바꾼 뒤, 검색 점수를 평균(또는 결과 집합을 병합)해 질의 표현 앙상블을 구성했다. 이는 캡션이 원 질의와 다른 표현으로 쓰였을 때 파라프레이즈 중 하나가 적중할 가능성을 높여 리콜을 향상시켰다.
- Masked Language Modeling on Text: 앞서 언급했듯, 한 팀은 학습 중 MLM 손실을 포함했다. 손실로 사용하지 않더라도 MLM을 증강으로 모방할 수 있다. 캡션의 10 % 단어를 무작위로 마스킹(공백 처리)하고, 모델이 나머지 문맥과 오디오만으로 정렬을 시도하게 만드는 방식이다. 이는 모델이 마스크되지 않은 문맥과 오디오 자체에 의존해 누락된 정보를 추론하도록 강제한다. LY 팀이 언급한 “text token masking” 과 사실상 동일하며, 텍스트 토큰에 대한 드롭아웃과 유사한 효과를 낸다.
이러한 증강을 적용하면 학습 데이터가 실질적으로 증가하고 다양화된다. 이는 Clotho의 약 3000개 학습 캡션으로 파인튜닝할 때 특히 중요하며, 과도한 증강이 상위권 시스템이 이렇게 작은 데이터로도 대형 모델을 과적합 없이 학습할 수 있었던 핵심 이유였다. 예를 들어 SRPOL 팀은 다음을 결합했다: 오디오에서는 시간/주파수 마스킹과 PatchOut을, 텍스트에서는 무작위 단어 삭제, 동의어 치환, 역번역, GPT 재작성. 그 결과 모델은 강인성이 높아져 단일 모델로 약 40 % mAP@10 성능을 달성했다.
상위권 시스템에서 얻은 인사이트와 모범 사례
상위권 시스템과 최신 연구를 검토해 보면 다음과 같은 모범 사례가 도출된다:
- 대규모 사전 학습 활용: 모든 상위 팀은 대규모 오디오-텍스트 데이터(AudioCaps, WavCaps, LAION-Audio 등)로 사전 학습된 모델을 기반으로 했다. LAION-CLAP이나 PaSST 같은 체크포인트에서 시작하면 학습이 크게 가속되고 최종 정확도가 향상된다. 가능하다면 폭넓은 오디오-캡션 세트로 사전 학습된 체크포인트를 사용하라. 예컨대 오픈소스 CLAP 모델(LAION-AI 구현)은 바로 파인튜닝이 가능하다. 마찬가지로 Microsoft는 AudioSet과 자연어에 초점을 맞춘 CLAP 모델(HuggingFace microsoft/CLAP)을 공개했다. 이들 모델은 이미 일반적인 소리 개념(개 짖는 소리, 피아노 음악 등)을 학습한 강력한 초기화를 제공하며, 파인튜닝 단계에서는 Clotho-스타일 캡션과 검색 과제의 세부 사항만 추가로 학습하면 된다.
- 여러 데이터셋을 사용하되 제외 지침을 준수하기: 다양한 데이터를 최대로 활용하기 위해서는 결합 데이터셋(AudioCaps + Clotho + 기타)을 학습에 사용하는 것이 공통된 합의입니다. 단, 데이터를 결합할 때는 평가 과정에 누출될 수 있는 샘플을 반드시 제거해야 합니다. 출처별 계층화(stratify by source)를 권장합니다 – 예를 들어, 규모가 크고 노이즈가 많은 WavCaps·AudioCaps로 먼저 학습을 시작한 뒤 학습이 진행될수록 Clotho 데이터를 더 높은 샘플링 가중치로 추가하여, 학습이 진행되면서 모델이 Clotho에 집중하도록 합니다. 많은 팀이 다음과 같은 단계별 학습을 설정했습니다: 먼저 대규모 외부 데이터로 여러 이터레이션 학습을 진행하고, 이후 혼합 데이터 또는 Clotho 전용으로 마지막 몇 에포크를 학습합니다. 또한 의사 라벨링(pseudo-labeling) 도 고려하십시오. 초기 학습 후, 모델을 사용해 다른 오디오의 캡션을 검색(또는 그 반대)하여 추가 학습 쌍을 생성할 수 있습니다(CP-JKU 팀은 원래 라벨이 없던 오디오-캡션 쌍 중 매칭 가능성이 높은 것을 찾아 활용했습니다). 이렇게 하면 모델이 선별한 예시로 훈련 데이터셋을 효과적으로 확장할 수 있습니다.
- 평가 지표에 맞춘 튜닝: 주요 평가지표인 mAP@10 및 R@K는 각 질의에 대해 올바른 오디오가 순위 상단에 위치하도록 보상한다. mAP을 직접 최적화하기 위해 일부 팀은 학습 중 이 지표를 간접 시뮬레이션했다. 예컨대 Clotho는 오디오마다 캡션이 5개이므로, 한 캡션을 앵커로 사용할 때 동일 배치에 포함된 나머지 4개 캡션도 양성(positive) 으로 간주하거나 최소한 음성(negative) 으로 취급하지 않는다. 동일 클립의 모든 캡션 임베딩을 서로 가깝게 묶으면, 이들 중 어느 캡션이 질의로 사용되더라도 평균 정밀도가 향상된다. 한 팀은 오디오를 짝지은 캡션뿐 아니라 모든 캡션 임베딩에 가깝게 당기는 특수 손실을 도입해 이를 구현했다. mAP를 개선하는 또 다른 요령은 2차 모델 또는 휴리스틱으로 결과를 재랭킹(re-ranking)하는 것이다. 예를 들어, 특정 메타데이터가 일치하거나 앙상블에서 자주 검색된 오디오 클립의 점수를 사후 처리 단계에서 소폭 상승시킬 수 있다. 2024년 시스템 YAATRA는 초기 검색 뒤 재랭킹 네트워크를 적용했는데, manifold mixup 학습과 보조 재랭커를 결합해 상위 결과를 정제하여 정밀도를 개선했다. 연산 자원이 허용된다면, 크로스모달 재랭커(예: 질의 텍스트와 오디오 임베딩 또는 스펙트로그램을 입력받아 매치 점수를 출력하는 소형 트랜스포머)를 상위 50개 후보에 적용해 R@1과 mAP을 세부적으로 끌어올릴 수 있다.
- 하드 네거티브 마이닝 & 다양성: 모델이 쉬운 음성(easy negatives) 에만 의존하도록 두지 말라. 모델 성능이 향상될수록 음성 샘플링을 업데이트해야 한다. 많은 DCASE 팀은 검증 세트로 파인튜닝하거나 모델로 대규모 비라벨 쌍을 평가한 뒤 가장 혼동스러운 쌍을 학습에 추가하는 방식으로 이를 효과적으로 수행했다. 어떤 캡션들이 자주 혼동되는지 모니터링하라(예: “applause” 오디오가 자주 “rain” 캡션을 검색한다면, 모델이 일부 특징을 구분하지 못한다는 신호). 그런 구분을 돕기 위해 해당 사례를 더 많이 제공하거나(혹은 “applause vs rain” 음성 쌍을 명시적으로 추가) 학습에 활용할 수 있다. 또한 일부 팀은 모달리티 균형을 고려해 음성을 구성했다: 각 양성 쌍마다 (1) 같은 오디오 + 잘못된 캡션, (2) 같은 캡션(다른 오디오) + 잘못된 오디오 음성을 하나씩 포함한다. 이렇게 하면 모델은 하나의 오디오에 대해 서로 다른 캡션뿐 아니라 하나의 캡션에 대해 유사한 오디오도 구별하는 법을 배운다.
- 앙상블 및 모달 융합: 앞서 언급했듯, 여러 모델을 앙상블하면 성능이 상승한다. 시간이 허용된다면, 예를 들어 PaSST로 학습한 모델 하나, BEATs로 학습한 모델 하나, CAV-MAE로 학습한 모델 하나 등을 준비하고, 임베딩을 가중 평균 또는 정규화 점수 평균으로 결합하라. 서로 다른 사전 학습을 거친 모델들은 서로의 오류를 보완한다. 실제로 삼성의 2모델 앙상블은 Clotho에서 **R@1 24.4 % → 27.8 %**로 향상됐다. 점수 수준(score-level) 앙상블을 넘어서 특징 수준(feature-level) 융합을 제안한 연구도 있다: 2023년 한 방법은 오디오 스펙트로그램, 스테이블 디퓨전으로 생성한 CLIP 이미지, 텍스트 임베딩을 하나로 이어 붙여 다중 과제 학습을 수행했다. 오디오에는 일반적으로 이미지 데이터가 없지만, 생성 이미지나 메타데이터 태그처럼 창의적인 멀티모달 학습이 임베딩 공간을 풍부하게 만들 수 있다. 그러나 2024년 결과를 보면, 단순성이 승리했다—최고 성능 시스템은 복잡한 추가 모달리티 없이 강력한 듀얼 인코더 앙상블만으로 충분했다.
- 대형 언어 모델은 보조용이지 대체용이 아니다: GPT 같은 대형 언어 모델(LLM) 로 데이터를 증강하는 전략은 DCASE 2024에서 게임 체인저로 작용했다. LLM은 합성 캡션(WavCaps) 생성, 질의 재구성, 심지어 오디오에 대한 추가 설명 생성(일부 캡셔닝 팀은 GPT로 AudioSet 클립을 묘사해 의사 캡션을 만들고 학습에 사용)까지 도왔다. 검색(task 6/8) 관점에서 핵심은 LLM을 활용해 학습 데이터와 모델 견고성을 늘리라는 것이다. 예를 들어 하나의 오디오 파일에 대해, GPT-4에게 메타정보(또는 존재한다면 사람이 작성한 캡션)를 주고 추가 캡션 5개를 생성하게 한 뒤, 이를 훈련 중 추가 “질의” 로 사용(각각 같은 오디오와 매칭)할 수 있다. 실제로 팀들은 GPT-3.5로 Clotho 캡션 변형을 생성해 유의미한 성능 향상을 얻었다. 반면 추론 단계에서 LLM을 직접 사용해 오디오와 텍스트를 매칭하는 것은 아직 현실적이지 않다. 예를 들어, 오디오 캡셔닝 모델이 만든 텍스트 설명과 사용자의 질의를 GPT-4에 넘겨 일치 여부를 묻는 2단계 방식은 느리고 캡션 품질에 제약을 받는다. 대신 LLM은 전처리에서 빛난다: 모델이 보게 될 캡션·질의 풀을 확장한다. 예외적으로, LY 팀처럼 ChatGPT로 질의 파라프레이즈를 만들고 여러 검색을 수행한 뒤 결과를 평균(또는 병합)해 리콜을 높이는 “query augmentation” 기법은 실시간성이 크게 중요하지 않을 때 추천할 만하다––질의 한 번당 LLM 호출 몇 번은 감당 가능하기 때문이다.
- 오픈소스 리소스: 개발을 빠르게 시작할 수 있도록 도와주는 여러 코드 저장소가 있습니다. 몇 가지를 들면 다음과 같습니다: 공식 DCASE2022 베이스라인 코드(비록 구형 CRNN+Word2Vec 모델을 사용하지만)가 GitHub에 공개되어 있습니다. 더욱 관련성이 높은 예로, LAION-CLAP 저장소는 CLAP 모델용 코드와 사전 학습 체크포인트를 제공하며, PyTorch에서 직접 파인튜닝할 수 있습니다. CP-JKU SALSA 저장소(2024년 1위 시스템)는 지식 증류와 향상된 네거티브 처리 방식을 포함한 검색 모델을 오픈소스로 공개했습니다. 이 저장소에는 필요에 맞게 수정할 수 있는 학습 스크립트도 포함되어 있습니다. 추가로, 연구 커뮤니티에서는 오디오-텍스트 검색 논문과 리소스를 모은 “awesome list”를 정리했습니다(GitHub: xieh97/language-based-audio-retrieval), 이는 최신 방법을 참조하기에 훌륭한 자료입니다. 많은 상위권 시스템이 기술 보고서를 공개했고 일부는 코드를 함께 배포했습니다; 예를 들어, 2024년 논문 “Audio meets Text: a loss-enhanced journey with manifold mixup and re-ranking”은 고급 학습 기법과 재랭킹 모듈을 보여 주는 코드(프로젝트 YAATRA)를 제공합니다(랭킹 개선 아이디어에 유용).
요약하자면, 최첨단 성능(state-of-the-art performance)을 달성하기 위해서는 강력한 듀얼 인코더 아키텍처(예: 사전 학습된 PaSST 또는 CLAP 오디오 인코더와 RoBERTa 텍스트 인코더)를 사용하고, 대량의 증강 데이터를 활용하여 대조 학습(contrastive objective) 방식으로 학습해야 한다. 사용 가능한 모든 오디오-캡션 데이터를 최대한 활용하되(금지된 중복 데이터는 제외), 이를 사전 학습(pre-training)에 사용하고, 이후 Clotho 데이터로 파인튜닝(fine-tune) 및 디스틸(distill)해야 한다. 가능하다면 멀티모달 및 멀티태스크 학습(예: 오디오 태깅, 캡션 생성, 매칭 손실 등)을 도입하여 모델의 이해도를 높이는 것도 중요하다. 마지막으로, 데이터 증강의 힘을 최대한 활용해야 한다. 저수준 증강(SpecAugment, mixup)과 고수준 증강(GPT 기반 파라프레이즈 생성)을 모두 사용함으로써, 다양한 방식으로 소리를 표현할 수 있는 상황에 모델이 잘 일반화되도록 해야 한다. 이러한 최고 성능 팀들로부터 얻은 실천 지침들을 따름으로써, 검색 모델은 mAP@10 및 R@K 지표에서 큰 향상을 보이며, DCASE 2025 Task 6에서 최첨단 성능에 근접할 수 있을 것이다.
출처:
- DCASE 2024 Task 8 기술 보고서 (상위 시스템들)
- 최신 오디오-텍스트 검색 연구 (AudioCaps, WavCaps, CLAP 등)
- 앞서 언급한 오픈소스 구현 및 데이터셋
'Projects' 카테고리의 다른 글
CycleNet 후속 연구 계획서 (0) | 2025.05.03 |
---|---|
SegMamba 기반 3D 의료 영상 분할 정확도 향상을 위한 연구 계획서 (0) | 2025.05.03 |
DCASE 2025 Task 2: 고성능 이상음 탐지를 위한 모델 아키텍처 및 기법 (0) | 2025.05.03 |
VOTS 2025 챌린지 연구 계획 (1) | 2025.05.01 |
음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획 (0) | 2025.05.01 |