AI & Statistics Lab

Projects

음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획

AIStat 2025. 5. 1. 10:20

음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획

연구 배경 및 기존 연구 요약

자동 오디오 캡셔닝(Automated Audio Captioning, AAC)은 주어진 음원의 내용에 대한 자연어 설명을 생성하는 과제로서, 소리의 탐지와 분류뿐만 아니라 여러 소리 사건 간의 관계까지 요약해야 한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 기존 오디오 캡션 모델들은 소리 이벤트의 존재 여부나 종류에 대한 정확도를 높이기 위해 다양한 기법을 도입해 발전해왔다. 예를 들어, 사전 학습된 오디오 분류 모델이나 언어 생성 모델을 활용하면 캡션 성능이 크게 향상됨이 보고되었고 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection), 특정 키워드사운드 태그를 예측하여 캡션 생성을 지도하거나 새로운 손실 함수를 도입하는 연구들도 활발히 이루어졌다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 그러나 소리 사건들 간의 시간적 관계(예: “이 소리가 난 후 저 소리가 났다”와 같은 순차/동시 발생 관계)를 정확히 묘사하는 문제는 상대적으로 적은 주목을 받아왔다. 실제로 성능이 우수한 기존 AAC 모델도 “before”, “after”와 같은 시간 접속사를 포함하여 정확한 시간 관계를 표현한 캡션을 생성하는 비율이 11.1%에 불과한 것으로 보고되었다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 이는 이미지 캡셔닝이 공간적 관계를 중시하는 것처럼, 오디오 캡셔닝에서는 시간적 흐름과 동시/순차 관계를 파악하여 표현하는 것이 중요함에도 불구하고, 기존 모델이 이에 미흡함을 보여준다.

이러한 배경에서 Interspeech 2023에 발표된 Xie 등 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection)의 연구는 음향 이벤트 검출(Sound Event Detection, SED)을 활용하여 오디오 캡셔닝의 시간 관계 표현을 향상시키는 temp-tag-AAC 모델을 제안하였다. SED는 오디오 내 각 소리 이벤트의 **발생 구간(start~end 시점)**을 찾아내는 기술로, 일정 시간 프레임별로 여러 이벤트의 발생 확률을 출력한다. Xie 등의 연구는 SED 출력으로부터 저수준 프레임별 확률 대신 인간이 이해하기 쉬운 고수준의 시간 정보를 추출하여 캡션 모델에 전달하는 새로운 방식을 고안하였다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 구체적으로, 캡션 데이터에 나타나는 시간 관계 표현을 분석하여 총 4가지 범주의 시간 관계 태그 체계를 정의하고, SED 결과를 기반으로 해당 오디오 클립의 이벤트들이 어떤 시간적 패턴을 가지는지 분류하였다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection) ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 정의된 태그는 다음과 같다:

  • 태그 0: 하나의 이벤트만 존재하거나 시간 관계를 나타내는 접속사가 없는 경우 (예: “A 소리가 난다.”)
  • 태그 1: 두 소리가 동시에 또는 겹쳐서 발생 (동시적 관계, 캡션에 "while", "and" 등의 동시 표현 포함)
  • 태그 2: 두 소리가 순차적으로 발생 (순차적 관계, 캡션에 "then", "after", "followed by" 등의 순차 표현 포함)
  • 태그 3: 복잡한 시간 관계 (여러 이벤트가 혼합되어 동시 + 순차 관계가 모두 존재하거나, 둘 이상의 시간 접속사가 포함된 경우)

이 태그 부여를 위해, 캡션의 텍스트를 분석하여 시간 접속사의 존재 여부와 종류를 기준으로 캡션에 태그를 할당하고, 동일한 기준을 SED 출력상의 여러 이벤트 시간 범위에 적용하여 오디오에 대해서도 태그를 추론하는 매칭 알고리즘을 제안하였다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 그 후, 캡션 생성 디코더의 입력으로 일반적인 문장 시작 토큰(begin-of-sentence) 대신 이 시간 태그를 투입함으로써, 디코더가 해당 오디오의 시간 관계 정보를 먼저 인지하도록 설계하였다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection) ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). Fig. 1은 기존 연구에서 제안된 다양한 AAC 모델 구조를 보여주며, (D)가 temp-tag-AAC 방식이다.

Figure 1.

 

([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection) Fig. 1. 기존 연구에서 비교한 AAC 모델들의 구조 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). (A) 오디오 특징만으로 캡션 생성(베이스라인); (B) SED 확률출력을 오디오 임베딩과 연결(concat)하여 디코더 입력으로 사용; (C) 디코더의 hidden 상태와 SED 출력을 어텐션으로 통합; (D) SED로부터 시간 태그를 추출하여 BOS 대신 디코더에 입력하는 temp-tag-AAC (제안 방식).

이전 연구의 결과에 따르면, SED 출력을 단순히 연결하거나 어텐션으로 활용한 (B), (C) 방법은 캡션의 시간 표현 정확도를 거의 향상시키지 못했다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 반면, 제안한 (D) temp-tag-AAC 모델은 시간 태그를 활용한 덕분에 캡션 내 시간 접속사 및 순서 표현의 정확도가 크게 향상되었고, 일반적인 BLEU 등 캡션 품질 지표도 개선되었다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 즉, temp-tag-AAC는 시간 관계 묘사 능력과 캡션 전반의 품질을 모두 향상시켰음을 검증하였다. 다만, 해당 연구에서는 캡션 생성 디코더로 비교적 단순한 GRU(seq2seq) 구조를 사용하고, SED 모델로도 CNN-BiGRU 기반의 모델을 활용하여 아직 최신 기법을 적용하지는 않은 한계가 있었다. 본 후속 연구는 이러한 부분을 개선하여, 더 정교한 언어 생성과 더 정확한 이벤트 검출을 통해 시간 표현과 캡션 완성도를 한층 높이는 것을 목표로 한다.

후속 연구의 목표 및 기대 효과

본 연구의 최종 목표는 AudioCaps와 Clotho와 같은 공개 오디오 캡셔닝 데이터셋 상에서, 시간 관계 표현의 정확도전반적인 캡션 기술의 품질동시에 향상시키는 것이다. 구체적으로, 이전 연구(temp-tag-AAC)에서 달성한 성능을 더욱 향상시키기 위해 두 가지 핵심 구성요소를 개선하고자 한다:

  1. 캡션 디코더의 고도화: 기존에는 GRU 기반 디코더를 사용하였으나, Transformer 계열의 최신 자연어 생성 모델로 대체하여 문장 구성 능력을 향상시킨다. 예를 들어, Transformer 디코더 또는 사전 학습된 생성 모델(BART, GPT 등)을 도입함으로써 더 유창하고 맥락적으로 풍부한 캡션을 생성하도록 유도한다. 이는 복잡한 문장 구조나 긴 종속절 표현 등도 처리하여 **전반적인 캡션 품질 지표(BLEU, METEOR 등)**를 향상시킬 것으로 기대된다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection).
  2. SED 모델의 최신화: 기존에는 CNN-BiGRU 기반의 SED를 사용하여 이벤트 시각을 추출했는데, 이를 최신 Transformer 기반 SED 모델로 교체함으로써 이벤트 검출의 정밀도를 높인다. 최근 제안된 AST(Audio Spectrogram Transformer) (ISCA Archive - AST: Audio Spectrogram Transformer), HTS-AT(Hierarchical Token-Semantic Audio Transformer) ([2202.00874] HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection), BEATs(Bidirectional Encoder representation from Audio Transformers) (BEATs: Audio Pre-Training with Acoustic Tokenizers) 등의 모델은 AudioSet 등 대규모 데이터셋에서 이전 CNN 기반 모델을 능가하는 최고 수준의 성능을 보이고 있다. 예컨대 AST는 AudioSet 분류에서 평균 정밀도(mAP) 48.5%를 달성하고 (ISCA Archive - AST: Audio Spectrogram Transformer), 이후 HTS-AT는 더 적은 파라미터로도 성능을 높여 기존 CNN 대비 우수한 이벤트 검출 정확도를 보여주었으며 ([2202.00874] HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection), BEATs는 50.6% mAP로 SED 성능을 더욱 향상시켰다 (BEATs: Audio Pre-Training with Acoustic Tokenizers). 이러한 최신 SED 모델을 활용하면 오디오 내 여러 이벤트의 시작/종료 시점을 더 정확히 포착할 수 있어, 앞서 정의한 시간 태그를 한층 신뢰성 있게 결정할 수 있다. 그 결과 **시간 관계 표현의 정확도(F1-temp 등)**가 상승하고, 나아가 캡션에 포함되는 이벤트 자체의 인식률도 높아져 캡션 내용의 충실도도 향상될 것으로 기대된다.

이상의 두 가지 개선을 통해, 본 연구는 시간 표현 특화 성능과 일반 캡션 성능 간의 trade-off 없이 동시 향상을 달성하고자 한다. 즉 정확한 시간적 서술(예: “그 후에”, “동시에” 등의 적절한 사용)과 풍부한 내용의 자연스러운 문장을 모두 갖춘 오디오 캡션을 자동 생성하는 것이다. 이를 통해 궁극적으로 사람이 오디오를 듣고 이야기하듯이 시간 흐름까지 고려한 캡션 생성에 한 걸음 더 다가가는 것이 본 연구의 의의이다.

전체 연구 설계 및 단계별 수행계획

후속 연구는 크게 데이터 준비, SED 모델 개선 및 적용, 시간 태그 추출 기법 개선, 캡션 생성기 설계/학습, 최종 평가의 단계로 이루어진다. 각 단계를 구체적으로 설명하면 다음과 같다:

  1. 데이터셋 준비 및 전처리: 주요 실험은 AudioCapsClotho 데이터셋을 활용한다. AudioCaps는 약 50k개의 오디오-자막 쌍으로 구성된 대규모 데이터셋이고, Clotho는 다양한 환경의 오디오 5k개에 대해 5개씩의 캡션이 주어진 비교적 소규모 데이터셋이다. 두 데이터셋 모두 10~30초 이내의 오디오 클립과 그 내용에 대한 영어 문장 캡션을 포함한다. 우선 각 오디오를 일정한 포맷(샘플링 레이트 16kHz, 모노 등)으로 정규화하고, 로그 멜-스펙트로그램 등의 특징을 추출한다. 데이터셋별 훈련/검증/테스트 분할을 준수하며, 필요한 경우 데이터 증강(예: 잡음 추가, 시간 축 늘이기 등) 기법을 적용하여 모델의 일반화를 돕는다. 또한 캡션 텍스트에 대해서는 토큰화 및 단어 사전 구축(특히 AudioCaps와 Clotho를 합친 어휘 사용) 등을 수행한다.
  2. 최신 SED 모델 학습: 개선된 SED 모듈로는 앞서 언급한 AST, HTS-AT, BEATs 중 하나 이상을 선정하여 활용한다. 선택한 SED 모델은 공개 사전학습 가중치(예: AudioSet으로 학습된 모델)가 있다면 이를 초기화 가중치로 사용하고, 없으면 AudioSet이나 UrbanSound8K, ESC-50 등의 SED/분류 데이터로 추가 학습을 진행한다. SED 모델은 입력 오디오에 포함된 여러 소리 이벤트의 종류와 각 이벤트의 발생 시간구간을 예측하도록 학습된다. 구체적으로, 오디오 신호를 입력받아 프레임 단위의 사건 존재 확률을 출력하며, 다중 이벤트에 대한 detection임을 감안해 멀티라벨 분류 및 시계열 회귀 형태의 손실 함수를 사용한다 (예: 프레임 단위 바이너리 크로스엔트로피 + 온셋/오프셋 레이블). 학습이 완료된 SED 모델은 검증 세트에서 이벤트 탐지 정확도(예: 이벤트별 Precision/Recall)를 측정하여 기존 CNN-BiGRU 기반 SED 대비 향상되었는지 확인한다. 이후 이 SED 모듈은 캡션 모델을 학습시킬 때는 가중치를 고정(freezing)하거나, 필요시 미세 조정(finetuning)을 통해 오디오 캡션 도메인에 맞게 최적화한다.
  3. 시간 태그 추출 알고리즘 개선: SED 모델로부터 얻은 프레임별 이벤트 확률 출력을 활용하여 해당 오디오의 시간 관계 태그(0,1,2,3 중 하나)를 결정하는 알고리즘을 개선한다. 기본적으로 이전 연구에서 사용한 4단계 태그 체계 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection)를 유지하되, 새로운 SED 모델의 특성에 맞춰 몇 가지 개선을 시도한다. 첫째, SED 출력에서 이벤트 분할 및 정렬 방법을 정교화한다. 예를 들어 이벤트 탐지 결과에 따라 이벤트들의 시작/종료 시점을 일정 임계치로 이진화하여 이벤트 목록을 추출하고, 시간축 상에서 정렬한다. 이후 이벤트 간 겹치는 정도를 계산하여 동시에 발생한 이벤트 묶음과 순차 발생한 이벤트를 구분한다. 둘째, 세부 규칙의 개선: 이전 알고리즘은 단순히 겹침 여부로 동시/순차를 구분하고 이벤트 개수가 2개를 초과하면 태그 3(복합)으로 처리하였다. 본 연구에서는 이벤트가 3개 이상인 경우에도 보다 세분화된 판단을 모색한다. 예를 들어, 3개 이벤트가 모두 연속적으로 일어났다면 태그 2로, 2개는 겹치고 이어서 3번째가 발생하는 경우 태그 3으로 분류하는 등 규칙 기반 로직을 개선한다. 또한 SED 확률 출력의 신뢰도를 반영하기 위해, 탐지된 이벤트 수가 실제로 의미 있는지 확률 합이나 지속시간 기준으로 필터링하여 과도한 이벤트 분할로 인한 오류 태그 할당을 완화한다. 개선된 시간 태그 추출 알고리즘은 인간 주석 캡션으로부터 얻은 정답 태그(캡션 내 사용된 시간 접속사에 따른 분류)와 비교하여 **일치도(정확도)**를 검증한다. 이를 통해 SED가 추론한 태그가 캡션의 실제 시간 표현과 얼마나 부합하는지 측정하고, 알고리즘 조정을 반복하여 최대한 정확한 태그 예측을 달성한다.
  4. 캡션 생성 디코더 설계 및 학습: 오디오 캡션 생성 모델의 디코더를 최신 구조로 설계한다. 인코더 부분은 기존과 마찬가지로 PANNs 등의 CNN 기반 오디오 임베딩 추출기를 사용하거나, 새로 도입한 SED 모델의 변형된 출력(예: 최종 분류 직전의 숨겨진 벡터 등)을 오디오 특징 표현으로 활용한다. 디코더는 Transformer 디코더 아키텍처를 채택하여 멀티-헤드 어텐션을 통해 인코더의 오디오 특징을 참고하면서 캡션 단어 시퀀스를 생성하도록 한다. Transformer 디코더는 자체적으로 과거 단어에 대한 언어 모델링인코더로부터 온 컨텍스트 벡터에 대한 어텐션을 수행하므로, GRU보다 긴 문맥을 활용하고 복잡한 표현을 생성할 수 있다. 또한 가능한 한 사전 학습된 언어 모델을 활용하는 방안을 모색한다. 예를 들어, BARTT5와 같은 sequence-to-sequence 모델의 디코더를 초기화하여 사용하거나, GPT-2와 유사한 언어모델을 캡셔닝 용도로 fine-tuning한다. 다만 이러한 모델을 그대로 활용하기 위해서는 오디오 특징을 텍스트 입력으로 변환하는 별도 모듈이나 어텐션 층이 필요하므로, 본 계획에서는 Transformer 기반 구조를 기본으로 하되 학습 데이터 규모 등을 고려하여 전이 학습(transfer learning)을 진행한다. 디코더의 입력에는 이전 연구와 동일하게 시간 태그 토큰을 첫 번째로 넣어, 해당 오디오의 시간 관계 정보를 조건으로 문장 생성을 시작하게 한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 훈련 시에는 참조 캡션으로부터 구한 정답 태그를 입력으로 사용하고, 추론 시에는 SED로부터 예측된 태그를 사용하여 일관성을 유지한다. 캡션 생성 학습은 교사 강요(teacher forcing) 방식의 교차 엔트로피 손실로 수행하고, BLEU, METEOR 등 **평가지표에 따라 조기 종료(early stopping)**를 적용한다. 추가로, 시간 관계 표현을 더 잘 학습시키기 위해 시간 접속사 단어에 가중치를 주는 보조 손실을 설계하거나, SED 출력과 생성된 단어 간 정렬(alignment)을 평가하는 새로운 손실 함수를 고안하는 것도 고려한다.
  5. 모델 통합 및 end-to-end 훈련: 개선된 오디오 인코더 + SED + 시간태그 추출 + Transformer 디코더로 구성된 전체 캡셔닝 시스템을 통합한다. 전체 모델의 동작은 다음과 같다: 오디오 입력에 대해 (a) 오디오 인코더가 전반적인 음향 임베딩을 추출하고, 동시에 (b) SED 모듈이 이벤트 발생 확률 시계열을 예측한다. SED 출력은 시간 태그 추출기를 거쳐 하나의 태그로 요약된다. 이 태그는 디코더의 문장 생성 과정의 첫 입력 토큰으로 제공되고, 디코더는 오디오 인코더의 임베딩을 참고하며 순차적으로 단어를 생성하여 캡션을 완성한다. 훈련 단계에서는 SED 모듈과 태그 추출 알고리즘의 결과 대신 정답 캡션으로부터 산출한 시간 태그를 입력으로 사용함으로써, SED 오류가 학습에 끼치는 영향을 배제한다. 디코더(및 인코더)는 캡션 언어 생성의 주 손실을 통해 학습되고, SED 모듈은 앞서 별도로 학습되어 고정된 상태로 활용되므로, 모달별 단계적 학습이 적용된다. 이렇게 분리 학습한 후 필요하면 미세조정을 위해 전체 네트워크를 end-to-end로 학습할 수도 있다. 이때는 작은 학습률로 SED 모듈까지 함께 업데이트하여 캡션 생성 목표에 조금 더 맞춰 조정할 수 있으나, SED의 정확도 저하 위험이 있으므로 별도 실험으로 검증한다.
  6. 모델 평가 및 분석: 학습이 완료된 모델은 검증 세트를 통해 주요 지표를 측정하며 튜닝되고, 최종적으로 테스트 세트에서 성능 평가를 진행한다. 평가 단계에서는 캡션 생성 속도 등 실용적 지표도 확인한다. 또한, 캡션 예시들을 질적으로 검토하여 실제 시간 표현이 문법적으로 잘 사용되었는지, 이벤트 묘사가 정확한지 사람 평가를 수행할 수도 있다. 성능 향상의 통계적 유의미함을 검정하기 위해 캡션 평가 지표에 대한 신뢰 구간 또는 유의성 검사(예: bootstrap)도 실시한다. 평가 결과를 통해, 제안한 개선 기법들이 기존 대비 어느 부분에서 얼마나 이득을 주었는지 분석하고, 오류 사례를 면밀히 검토하여 향후 보완점을 논의한다.

사용할 평가 지표

본 연구에서는 캡션의 일반적인 품질 평가 지표시간 관계 표현에 특화된 평가 지표를 모두 활용한다. 주요 지표는 다음과 같다:

  • BLEU-1/2/3/4: 기계 번역 등에 널리 쓰이는 정량 지표로, 생성된 캡션과 레퍼런스 캡션 간의 n-그램 중복도를 측정한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 특히 BLEU-4는 일반적으로 종합적인 정확도를 나타내는 지표로 쓰이며, 값이 높을수록 캡션의 단어 구성이 참고 문장과 유사함을 뜻한다.
  • METEOR: 번역 평가 지표로, 단순 정밀도뿐만 아니라 **재호출(recall)**과 어근/동의어 매칭까지 고려한 지표이다. 캡션의 내용적 충실도와 다양성을 보완적으로 평가하기 위해 사용한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection).
  • CIDEr: 여러 레퍼런스 캡션을 고려하여 생성 캡션의 어휘적 독특함과 중요 단어 매칭을 측정하는 지표이다. AudioCaps의 경우 한 오디오당 한 개 캡션이지만, Clotho는 다중 캡션이 있으므로 CIDEr를 활용하여 의미적 유사도를 평가한다.
  • SPICE: 생성된 캡션과 정답 캡션을 모두 **의미망(semantic graph)**으로 표현한 후 그래프 간 일치도를 계산하는 지표로, 문장의 의미적 내용 평가에 유용하다. 소리 이벤트의 묘사 정확도 등 내용 중심 평가를 위해 참고한다.
  • 시간 표현 정확도 지표: 이전 연구에서 제안된 Temporal Precision / Recall / F1 (약칭 F1-temp) 지표를 활용한다. 이는 생성된 캡션이 시간 관계를 정확히 표현했는지를 평가하기 위한 전용 지표로, 예를 들어 “before”, “then” 등의 사용이 적절한지를 정량화한다. 구현상으로는 참조 캡션의 시간 태그(예: 태그 1: 동시, 태그 2: 순차 등)와 생성 캡션의 시간 태그를 비교하여, 태그가 맞으면 True Positive로 간주하는 방식으로 정밀도/재현율을 계산한다. 마지막으로 F1-temp는 그 조화평균으로 시간 관계 일치율을 나타낸다. 해당 지표는 시간 접속사의 사용 여부와 종류까지평가하므로, 본 연구의 주목적인 시간적 묘사 성능을 직접적으로 확인할 수 있다.

이 외에도 ROUGE-L, FENSE 등 캡션의 텍스트 유사도나 의미 일관성을 보는 지표도 부가적으로 참고한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 다만 FENSE의 경우 문법 오류에 덜 민감하게 설계된 점을 고려하여, 우리의 경우 문법적 완전성도 중요하므로 FENSE 점수 해석에 주의한다. 최종적으로, 다양한 지표에서 제안 기법이 골고루 우수한 성능을 내는지를 검증할 계획이다.

비교 대상 모델 및 베이스라인

성능 평가를 위해 다양한 비교 대상 모델을 설정한다. 우선 베이스라인으로는 SED 정보를 사용하지 않는 기본 AAC 모델을 선정한다. 이는 PANNs 오디오 인코더 + GRU 디코더로 구성된 전형적인 캡션 생성 모델로, 오디오 임베딩만을 입력으로 받아 문장을 생성한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 이 베이스라인은 시간 관계에 대한 특별한 처리를 하지 않으므로, 본 연구의 접근법과 시간 표현 능력에서 확연한 차이가 있을 것으로 예상된다.

두 번째로, 기존 연구의 temp-tag-AAC 모델을 재현하여 비교한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 여기에는 CNN-BiGRU 기반 SEDGRU 디코더가 사용되고, 시간 태그를 첫 단어로 넣어 캡션을 생성한다. 이 모델은 이미 시간 표현 향상을 입증하였으므로, 우리의 개선된 temp-tag-AAC와 직접 비교함으로써 디코더 및 SED 업그레이드의 효과를 정량화할 수 있다. 추가로, 기존 연구에서 실험한 SED 직접 활용 방법들도 참고한다: SED 출력 확률을 인코더 출력과 결합한 모델(Cat-prob-AAC)과, 디코더에서 어텐션으로 SED 출력을 참고한 모델(Attn-prob-AAC) 등이 있으나 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection), 이들은 temp-tag-AAC보다 성능이 떨어지는 것으로 보고되었다. 필요시 이러한 방식에 최신 SED를 적용한 경우도 실험하여, 단순 확률 융합 vs. 태그 활용의 성능 차이가 여전히 유의한지 검증할 수 있다.

마지막으로, 제안하는 개선 모델들과 상호 비교를 수행한다. 구체적으로는, (a) 디코더만 개선한 경우 (Transformer 디코더 + 기존 CNN-BiGRU SED), (b) SED만 개선한 경우 (최신 SED + GRU 디코더), 그리고 (c) 둘 다 개선한 최종 모델을 각각 평가한다. 이를 통해 디코더 개선의 이점SED 개선의 이점을 개별적으로 파악하고, 두 개선의 **상승효과(synergy)**를 확인할 수 있다. 표 1은 본 연구에서 비교할 주요 모델 설정을 정리한 것이다.

모델 설정 SED 모듈 디코더 시간 태그 활용 비고

Baseline (기본 모델) 없음 GRU X 오디오 특징만으로 캡션 생성
기존 temp-tag-AAC CNN-BiGRU (PANNs 기반) GRU O (태그 입력) Xie 등 기존 연구 방식 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection)
디코더 개선 (우리 제안1) CNN-BiGRU Transformer (또는 BART) O SED는 기존, 디코더만 최신화
SED 개선 (우리 제안2) AST/HTS-AT/BEATs 등 GRU O 디코더는 기존, SED만 최신화
전체 개선 (우리 제안) AST/HTS-AT/BEATs 등 Transformer (또는 BART) O SED+디코더 모두 개선한 최종 모델

표 1. 비교 실험을 위한 모델 구성 요약

이상의 비교를 통해, 베이스라인 대비 시간 태그 기법의 우수성, 기존 태그 기법 대비 디코더/SED 향상의 기여도, 제안 모델의 종합적 성능 향상을 단계별로 검증할 예정이다. 특히 AudioCaps와 Clotho 각 데이터셋에 대해 모든 모델을 평가하여, 데이터셋에 따른 경향도 살펴본다. 예를 들어, 배경 소리가 복잡한 Clotho에서 SED 개선의 효과가 두드러지는지, 문장이 긴 Clotho에서 Transformer 디코더의 이점이 큰지 등을 분석한다.

가능한 Ablation 실험 항목 제안

연구의 설계 요소별 기여도를 면밀히 살피기 위해, 다음과 같은 ablation 실험(요소 제거/변경 실험)을 제안한다:

  • 시간 태그 입력 유무 비교: 시간 태그 자체의 효과를 검증하기 위해, 제안 모델에서 시간 태그 토큰을 사용하지 않고 캡션을 생성해본다. 이 경우 SED 출력 정보는 전혀 활용되지 않으므로, 결과 캡션의 시간 접속사 사용 빈도 및 정확도가 얼마나 떨어지는지 확인할 수 있다. 이를 통해 태그 기반 지도 학습의 중요성을 정량화한다.
  • SED 모듈의 정확도에 따른 영향: SED 출력의 신뢰도가 캡션에 미치는 영향을 조사한다. (a) SED를 완전히 제외한 모델(위의 Baseline과 동일)을 통해 SED 사용의 전체적인 이득을 확인한다. (b) SED는 사용하되 시간 태그 추출 대신 직접 어텐션 통합하는 방식(기존 Attn-prob-AAC에 최신 SED 적용)으로도 실험하여, 태그 방식과 비교한다. (c) 한발 더 나아가 SED의 이상적 성능 시나리오를 가정해본다. 이는 테스트 시에 실제 정답 캡션으로부터 시간 태그를 추출하여 디코더에 제공하는 것으로, 마치 SED가 오류 없이 완벽한 태그를 준 경우를 모사한다. 이 설정에서의 F1-temp 등을 측정하면 현재 SED 오차로 인한 성능 한계향후 SED 개선 여지를 가늠할 수 있다.
  • 디코더 구조 변형: Transformer 디코더의 구성 요소에 대한 실험으로, 예를 들어 레이어 개수나 hidden size를 변화시켜 본다. 또는 사전 학습 언어모델 vs 무작위 초기화 모델을 비교하여, 전이 학습의 효과를 확인한다. 이때 언어모델을 사용할 경우 영어 일반 문장에 대한 학습이 캡션 생성에 미치는 긍정적 효과(문법, 어휘 측면)와 혹시 있을 부정적 효과(도메인 특화 단어 표현 부족 등)를 분석한다.
  • Loss 및 훈련 기법에 대한 실험: 시간 접속사에 가중을 준 보조 손실을 추가로 사용해본 모델과, 그렇지 않은 모델을 비교하여 시간 표현 학습의 직접 지도 여부에 따른 차이를 확인한다. 또한 학습 시 SED 모듈을 고정 vs 미세 조정한 경우를 비교하여, end-to-end 학습의 필요성을 평가한다. 만약 SED까지 함께 학습시킨 모델이 더 나은 캡션 성능을 보이면서 SED 정확도는 크게 떨어지지 않는다면, 공동 최적화의 이점이 있다고 볼 수 있다.
  • Threshold 및 태그 결정 규칙 변화: 시간 태그 추출 알고리즘 내 임계값이나 규칙을 변경해보고, 캡션 결과의 F1-temp 등이 어떻게 변하는지 관찰한다. 예를 들어 이벤트 겹침 판정 임계치를 높여 엄격하게 동시로 판단하도록 했을 때와 낮춰 관대하게 겹침으로 판단할 때 결과 차이를 분석한다. 이를 통해 현재 태그 결정 로직의 민감도를 확인하고 최적 값을 찾는다.

Ablation 실험 결과는 각각 해당 요소의 존재 유무가 성능에 미치는 영향을 보여주므로, 우리의 모델에서 어느 부분이 가장 기여도가 큰지를 밝혀준다. 예를 들어, 만약 디코더를 Transformer로 바꾸었을 때 METEOR는 크게 향상되지만 F1-temp는 변화가 적고, SED를 개선했을 때는 F1-temp가 크게 상승한다면, 디코더는 문장 유창성에, SED는 시간 표현 정확도에 주로 기여했음을 알 수 있다. 이러한 분석을 통해 본 연구의 결과를 더욱 설득력 있게 제시할 수 있으며, 추후 연구에서는 어떤 부분을 집중 개선해야 할지에 대한 인사이트를 제공할 것이다.

이상과 같은 연구 계획을 바탕으로, 우리는 기존 temp-tag-AAC 대비 최신 기법을 통합한 향상된 오디오 캡셔닝 모델을 개발하고 그 효과를 체계적으로 검증할 것이다. 이를 통해 자동 생성되는 오디오 캡션이 더욱 사람처럼 자연스럽게 사건의 흐름과 동시 발생까지 서술할 수 있기를 기대한다.