Projects (3) 썸네일형 리스트형 DCASE 2025 Task 2: 고성능 이상음 탐지를 위한 모델 아키텍처 및 기법 개요 및 도전과제DCASE 2025 Task 2의 목표는 비지도 이상음 탐지(ASD) 성능을 극대화하는 것입니다. 이 과제는 정상 음향 데이터만으로 학습하여 미지의 기계 이상음을 탐지해야 하며, 도메인 차이(domain shift)와 First-shot 문제를 함께 다룹니다 (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING) (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND .. VOTS 2025 챌린지 연구 계획 문제 정의와 요구 사항VOTS2025 메인 챌린지에서는 첫 프레임에 주어진 객체들의 세그멘테이션 마스크를 기반으로, 이후 프레임들에서 각 객체의 세그멘테이션 마스크를 정확하게 추적해야 합니다 (VOTS2025 Challenge | Submit). 이는 여러 객체를 장기간 안정적으로 추적해야 하는 다중 객체 세그멘테이션 추적 문제이며, 단일 객체 추적보다 난도가 높습니다. 높은 정확도의 마스크 예측과 견고한 다중 객체 추적 능력이 필수적이며, 객체의 잠시 부재나 가림(occlusion) 상황도 처리해야 합니다 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings). 아래에서는 이러한 요구 사항을 충족하기 위한 최신 기법들과 모델 구조를 제안합니다.최신 S.. 음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획 음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획연구 배경 및 기존 연구 요약자동 오디오 캡셔닝(Automated Audio Captioning, AAC)은 주어진 음원의 내용에 대한 자연어 설명을 생성하는 과제로서, 소리의 탐지와 분류뿐만 아니라 여러 소리 사건 간의 관계까지 요약해야 한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 기존 오디오 캡션 모델들은 소리 이벤트의 존재 여부나 종류에 대한 정확도를 높이기 위해 다양한 기법을 도입해 발전해왔다. 예를 들어, 사전 학습된 오디오 분류 모델이나 언어 생성 모델을 활용하면 캡션 성능이 크게 향상됨이 보고되었고 (.. 이전 1 다음