음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획연구 배경 및 기존 연구 요약자동 오디오 캡셔닝(Automated Audio Captioning, AAC)은 주어진 음원의 내용에 대한 자연어 설명을 생성하는 과제로서, 소리의 탐지와 분류뿐만 아니라 여러 소리 사건 간의 관계까지 요약해야 한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 기존 오디오 캡션 모델들은 소리 이벤트의 존재 여부나 종류에 대한 정확도를 높이기 위해 다양한 기법을 도입해 발전해왔다. 예를 들어, 사전 학습된 오디오 분류 모델이나 언어 생성 모델을 활용하면 캡션 성능이 크게 향상됨이 보고되었고 (..