전체 글 (13) 썸네일형 리스트형 DCASE 2025 Task 2: 고성능 이상음 탐지를 위한 모델 아키텍처 및 기법 개요 및 도전과제DCASE 2025 Task 2의 목표는 비지도 이상음 탐지(ASD) 성능을 극대화하는 것입니다. 이 과제는 정상 음향 데이터만으로 학습하여 미지의 기계 이상음을 탐지해야 하며, 도메인 차이(domain shift)와 First-shot 문제를 함께 다룹니다 (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING) (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND .. VOTS 2025 챌린지 연구 계획 문제 정의와 요구 사항VOTS2025 메인 챌린지에서는 첫 프레임에 주어진 객체들의 세그멘테이션 마스크를 기반으로, 이후 프레임들에서 각 객체의 세그멘테이션 마스크를 정확하게 추적해야 합니다 (VOTS2025 Challenge | Submit). 이는 여러 객체를 장기간 안정적으로 추적해야 하는 다중 객체 세그멘테이션 추적 문제이며, 단일 객체 추적보다 난도가 높습니다. 높은 정확도의 마스크 예측과 견고한 다중 객체 추적 능력이 필수적이며, 객체의 잠시 부재나 가림(occlusion) 상황도 처리해야 합니다 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings). 아래에서는 이러한 요구 사항을 충족하기 위한 최신 기법들과 모델 구조를 제안합니다.최신 S.. 음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획 음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획연구 배경 및 기존 연구 요약자동 오디오 캡셔닝(Automated Audio Captioning, AAC)은 주어진 음원의 내용에 대한 자연어 설명을 생성하는 과제로서, 소리의 탐지와 분류뿐만 아니라 여러 소리 사건 간의 관계까지 요약해야 한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 기존 오디오 캡션 모델들은 소리 이벤트의 존재 여부나 종류에 대한 정확도를 높이기 위해 다양한 기법을 도입해 발전해왔다. 예를 들어, 사전 학습된 오디오 분류 모델이나 언어 생성 모델을 활용하면 캡션 성능이 크게 향상됨이 보고되었고 (.. [Paper Review] Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval(Paul Primus, 2024) paper : https://doi.org/10.48550/arXiv.2406.15897Introduction기존의 retrieval system은 전통적으로 dual-encoder를 사용해서 query(caption), audio를 각각 처리한 후 multimodal metric space에 share하는 방식이었다.이후 audio와 query의 distance를 측정하여 ranking 해 찾는 방식이 방식을 content-based retrieval이라고 한다.content-based retrieval의 성능을 향상 시키기 위한 시도가 여러가지 있었는데 아래와 같다.① 사전학습된 모델 사용② augmentation③ 인공 캡션 생성이 논문에서는 새로운 hybrid method를 제안하는데 hybrid.. [Paper Review] NoduleNet: Decoupled False Positive Reductionfor Pulmonary Nodule Detection and Segmentation paper : https://arxiv.org/abs/1907.11320 NoduleNet: Decoupled False Positive Reductionfor Pulmonary Nodule Detection and SegmentationPulmonary nodule detection, false positive reduction and segmentation represent three of the most common tasks in the computeraided analysis of chest CT images. Methods have been proposed for eachtask with deep learning based methods heavily favored recentarxiv.org.. [Paper Review] Adapting a ConvNeXt model to audio classification on AudioSet paper: https://arxiv.org/abs/2306.00830 Adapting a ConvNeXt model to audio classification on AudioSetIn computer vision, convolutional neural networks (CNN) such as ConvNeXt, have been able to surpass state-of-the-art transformers, partly thanks to depthwise separable convolutions (DSC). DSC, as an approximation of the regular convolution, has made CNNs marxiv.org ConvNeXt 는 ‘A ConvNet for the 2.. [Paper Review] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation paper: https://arxiv.org/abs/2102.04306 TransUNet: Transformers Make Strong Encoders for Medical Image SegmentationMedical image segmentation is an essential prerequisite for developing healthcare systems, especially for disease diagnosis and treatment planning. On various medical image segmentation tasks, the u-shaped architecture, also known as U-Net, has become thearxiv.org TransUNet은 UNet의 이.. [Paper Review] DeiT: Training data-efficient image transformers & distillation through attention(Hugo Touvron, 2020) Paper link: https://arxiv.org/pdf/2012.12877.pdf Introduction DeiT는 2020년 12월 경에 나온 논문으로, ViT가 거대한 데이터셋에서만 유의미한 결과를 얻을 수 있다는 한계점을 해결하기 위해 데이터와 컴퓨팅 자원을 효율적으로 사용할 수 있는 knowledge distillation 기법을 통해 모델을 효율적으로 학습시키고자 했다. ImageNet1k 데이터셋으로 훈련된 CNN 기반의 분류 모델 efficientNet 모델과의 성능 비교 그래프 x축은 초당 처리된 이미지 수, y축은 정확도로 우측 상단에 위치한 모델의 성능이 좋음 같은 데이터로 학습하였을 때 CNN 기반의 EfficientNet보다도 distillation을 사용하여 자원을 효율적으로.. 이전 1 2 다음