개요 및 도전과제
DCASE 2025 Task 2의 목표는 비지도 이상음 탐지(ASD) 성능을 극대화하는 것입니다. 이 과제는 정상 음향 데이터만으로 학습하여 미지의 기계 이상음을 탐지해야 하며, 도메인 차이(domain shift)와 First-shot 문제를 함께 다룹니다 (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING) (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING). 구체적으로, 개발 단계의 기계 종류와 전혀 다른 새로운 기계 유형에 대해서도 별도 하이퍼파라미터 튜닝 없이 동작해야 합니다 (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING). 일부 기계는 작동 조건 등의 속성 정보 없이 주어지므로 모델은 이러한 추가 정보 없이도 이상음을 검출할 수 있어야 합니다 (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING). 또한 필요에 따라 깨끗한 기계음 데이터나 배경 노이즈 전용 데이터를 활용해 일반화 성능을 높일 수 있습니다.
이러한 제약 하에서 최고의 성능을 얻으려면, 도메인 일반화와 표현 학습에 강점이 있는 최첨단 모델 구조와 학습 기법이 필요합니다. 이하에서는 최근 DCASE Task 2 대회(2020–2024) 상위권 참가자들의 접근법을 토대로, 권장되는 모델 아키텍처와 기법, 각 방법의 장단점 및 성능 개선 전략을 정리합니다.
최근 상위권 모델 아키텍처 동향
DCASE Task 2 대회의 상위권 솔루션들은 오토인코더 기반 재구성 모델, 대조학습/자기지도 표현 학습 기법, Transformer 기반 네트워크 등 다양한 접근을 활용해왔습니다. 필요에 따라 이들을 하이브리드로 결합하거나 앙상블하여 최적의 성능을 달성하기도 했습니다. 아래에서는 주요 아키텍처별 특징을 살펴봅니다.
1. 재구성 기반 모델 (오토인코더 계열)
오토인코더(Autoencoder, AE)는 입력된 정상 음향의 특성을 학습하여 다시 복원하고, 복원 오차를 이상 징후로 간주하는 전통적인 방법입니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text). 실제 DCASE 2020~2021에서는 기본적인 CNN 기반 오토인코더와 복원 오류 기반 검출이 널리 사용되었습니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text). 변형으로 변분 오토인코더(VAE), Denoising AE, Masked AE 등이 도입되었는데, 예를 들어 IDNN(Interpolation DNN)은 스펙트로그램의 중앙 프레임을 마스킹하고 주변 프레임으로 복원하도록 학습하여, 비정상적인 비정상(non-stationary) 음향에 대한 AE 성능을 높였습니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text). 또한 Attentive Neural Process를 이용해 국소 영역 마스킹 복원을 수행하거나, 멜-스펙트로그램 외 여러 다중 특징을 결합하여 U-Net으로 복원하는 등 변형도 연구되었습니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text).
이러한 AE 기반 방법의 장점은 완전히 비지도로 정상 패턴 학습이 가능하고, 이상 검출 기준(복원 오류)이 명확하다는 점입니다. 특히 데이터가 풍부할 경우 정상 음향의 세세한 특징까지 모델링하여 높은 검출률을 얻을 수 있습니다. 그러나 단점으로, 도메인 차이가 클 때 오토인코더가 너무 일반화하여 정상 범주 밖의 입력도 잘 복원하는 문제가 있습니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text). 서로 다른 설비나 환경에서 발생한 정상 소리들은 분포 차이가 크며, 이 차이가 때로는 정상-비정상 차이보다 커서, 하나의 AE가 여러 도메인의 정상음을 모두 학습하면 이상음도 복원해버릴 위험이 있습니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text). 이를 보완하기 위해 상위권 솔루션들은 도메인별/기계별로 개별 AE 모델을 두거나, ID 조건부 오토인코더를 도입했습니다. 예를 들어, ID 컨스트레인트(IDC) 오토인코더는 잠재 공간에 기계 ID를 식별하는 보조 분류기를 추가하여 같은 기계 종류 내의 서로 다른 분포(예: 기계 개체별 차이)를 구별하도록 학습시킵니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text). 이렇게 하면 오토인코더가 각 기계의 고유한 정상분포에 맞게 복원하도록 유도되어, **다른 기계나 도메인의 소리(잠재적 이상)**는 복원 품질이 떨어지게 됩니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text). Transformer 인코더를 결합한 Transformer-AE 구조에서도 이러한 ID 조건부 학습이 효과적임이 보고되었습니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text).
또 다른 개선으로 복원 오류 산출 방식을 꼽을 수 있습니다. 전통적으로는 전체 프레임의 평균 복원 오류를 사용하지만, 이상음이 순간적으로만 발생할 경우 평균에 묻히는 문제가 있습니다. 이를 해결하기 위해 가중 복원 오류나 최대 오차를 사용하는 기법이 제안되었습니다. 예를 들어 한 연구에서는 짧게 발생하는 이상 이벤트의 오류에 가중치를 더 주어 전체 점수 산정 시 강조하는 가중치 이상 점수 계산 방법을 도입했습니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text) (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text). 이러한 방법은 짧은 이상 신호도 검출할 수 있도록 민감도를 높여줍니다.
요약: 오토인코더 기반 모델은 여전히 강력한 비지도 방법이며, 도메인별 모델링이나 ID 조건부 학습, 마스킹 기반 학습 등으로 개선해 왔습니다. 다만 단일 AE로 모든 도메인을 포괄하려 하면 성능이 저하되므로, 가능하다면 기계 유형별로 별도 모델을 사용하거나 하나의 모델 내에서 도메인 구분 메커니즘을 두는 것이 유리합니다. DCASE 2025에서도 단순 구조를 권장하므로, 지나치게 복잡한 설정보다는 (예: 각각 다른 구조의 모델 앙상블) 일관된 AE 구조에 도메인/ID 인지 능력을 부여하는 방향이 적절합니다.
2. 자기지도 학습 및 대조학습 기반 방법
대조학습(Contrastive Learning)과 자기지도(Self-Supervised) 학습 기법은 최근 대회에서 표현력과 일반화 향상을 위해 도입되고 있습니다. 이러한 접근은 이상치를 직접 모델링하기보다는, 정상 데이터로부터 구별력 있는 임베딩 표현을 학습하여 이상치를 아웃라이어로 식별하는 데 초점을 맞춥니다 () (). 상위권 팀들은 대규모 비지도 사전학습된 모델을 활용하거나, 정상 데이터를 활용한 분류/식별 과제를 도입하여 성능을 끌어올렸습니다.
대표적인 예로, DCASE 2023에서 2위를 차지한 팀은 대규모 사전학습 오디오 모델의 활용으로 큰 성능 향상을 보였습니다 (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection). 이 접근에서는 Wav2Vec 2.0, HuBERT, WavLM 등 수백 시간의 음성 데이터로 사전 학습된 거대 모델을 특성 추출기로 사용했습니다. 그런 다음 정상 기계음 데이터에 대한 자체 지도 분류 과제로 미세조정(fine-tuning)을 수행했는데, 여기서 기계 작동 상태나 섹션 ID를 레이블로 활용하여 모델이 미세한 상태 변화를 구별하도록 학습했습니다 (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection). 예컨대 각 정상 음향에 대해 *“어느 기계/섹션에 속하는가”*를 맞추는 분류기로 모델을 학습시키면, 모델은 정상 데이터 분포를 잘 구분하는 잠재 공간을 형성합니다. 새로운 테스트 음향이 이 공간 어디에도 속하지 않으면 이상으로 간주할 수 있습니다. 이러한 방법에서 성능 향상을 위해 해당 팀은 Status Augmentation이라는 독특한 데이터 증강을 도입했는데, 이는 입력 오디오의 재생 속도를 변화시켜 기계의 작동 상태 변화를 모방하는 기법입니다 (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection). 예를 들어 회전 기계음을 약간 빠르게 또는 느리게 재생하여 마치 부하나 속도가 달라진 것처럼 만들어 모델을 학습시키면, 실제 속도 변화나 도메인 변화에 더욱 견고해집니다. 또한 추출된 프레임 임베딩들을 결합하기 위해 Transformer 기반 풀링 기법을 적용하여 시간 구간별 특징을 종합했습니다 (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection). 그 결과, 사전학습 모델 특징 + 자기지도 학습으로 구축한 시스템은 기존의 AE나 단순 CNN 분류기 대비 큰 폭의 성능 향상을 이루었습니다. 해당 팀의 보고에 따르면, 제안한 방법은 전통적인 재구성 기반 AE나 단순 MobileNet 분류기를 큰 차이로 능가했고 DCASE2023 Task2에서 2위를 달성했습니다 (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection). 실제 DCASE2023 데이터에서 AE 기반의 평균 HMean(AUC와 pAUC 조화평균) 성능이 약 52%였던 반면, 사전학습 모델 활용 방법은 약 62% HMean까지 향상되었습니다 (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection) (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection). 이는 대규모 자기지도 사전학습이 새로운 기계음에 대한 일반화 성능을 크게 높일 수 있음을 보여줍니다.
또 다른 자기지도 접근으로, 정상 음향 분류기를 직접 이상검출에 활용하는 방법이 있습니다. 이는 DCASE 2022에서 성공적인 도메인 일반화 기법으로 보고되었는데, 오디오의 메타데이터 속성을 레이블로 사용하는 자기지도 속성 분류 방법입니다. 예를 들어 MobileFaceNet과 같은 경량 CNN을 기반으로 스펙트로그램을 입력 받아, 한 분기는 기계 ID/섹션을 맞추는 섹션 분류기, 다른 분기는 도메인 속성을 맞추는 속성 분류기로 학습시킵니다. 학습 시 정상 데이터에 대해서만 훈련하며, 모델은 각 정상 파일이 어떤 섹션에 속하는지 높은 확신(probability)으로 맞추도록 훈련됩니다. 이렇게 학습된 모델에 테스트 음향을 넣으면, 정상 음향은 모델이 알고 있는 섹션으로 높은 확률을 출력하지만, 이상 음향은 어느 정상 섹션으로도 자신있게 분류되지 못해 낮은 최대 확률을 보입니다. 이때 정답 섹션에 대한 예측 확률의 음수 로그값 등을 이상 점수로 사용하여 검출할 수 있습니다. DCASE 2022 1위권 팀은 이 속성 분류기 기반 방법과 GMM기반 방법을 앙상블하여, 보이지 않는(target) 도메인에서 AUC 78.5%의 높은 성능을 달성했습니다. 이 접근의 장점은 도메인 레이블이 없어도 모델이 암묵적으로 서로 다른 도메인/컨디션의 분포를 학습하여 구별학습(discriminative learning)을 한다는 점입니다 ([2206.05876] Description and Discussion on DCASE 2022 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Applying Domain Generalization Techniques). 실제 2022년도 결과 분석에 따르면, 참가자들은 (1) 여러 도메인 데이터를 섞어 일반화된 표현을 학습하는 방법과 (2) 도메인을 분류하거나 식별하는 방법의 두 가지로 접근했으며, 두 방법 모두 도메인 차이에 강인한 모델을 만드는 데 효과적이었습니다 ([2206.05876] Description and Discussion on DCASE 2022 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Applying Domain Generalization Techniques). 속성/섹션 분류 기반 방법은 이 중 (2)에 속하며, 명시적으로 각 도메인/섹션을 구분하도록 학습하였기에 도메인별 최적화된 결정 경계를 얻을 수 있다는 장점이 있습니다 ([2206.05876] Description and Discussion on DCASE 2022 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Applying Domain Generalization Techniques). 다만 라벨 분류기 사용 시 라벨 불균형 등의 이슈가 있을 수 있어, 실제 적용한 팀은 Focal Loss로 자주 등장하는 정상 클래스의 영향력을 조정하는 등 세부적인 트릭을 병행했습니다.
대조학습(contrastive)을 활용한 방법도 주목됩니다. Contrastive learning은 보통 양성쌍/음성쌍 데이터를 구성하여 임베딩 공간에서 양성쌍은 가깝게, 음성쌍은 멀어지도록 학습하는 기법입니다. 이상 탐지에 이를 응용할 때 한 가지 아이디어는, 동일 기계의 정상음을 양성쌍으로, 다른 기계의 소리를 음성쌍(의사 이상)으로 두는 것입니다. 이렇게 학습하면 모델은 자기 기계의 정상 패턴에 특화된 표현을 배우고, 다른 종류(또는 도메인)의 소리는 구별하도록 임베딩을 형성합니다. 실제로 Outlier Exposure라는 기법으로, 다른 기계의 정상음을 현재 타겟 기계에 대한 “가짜 이상”으로 취급하여 분류기를 학습시키는 방법이 제안된 바 있습니다. 상위권 솔루션 중에도 여러 기계 종류의 데이터를 한꺼번에 학습하면서 contrastive loss를 도입한 사례가 있습니다. 예를 들어 GeCo (Generative-Contrastive) 프레임워크는 생성모델 기반 예측기와 대조학습을 결합하였는데, 입력 정상 음향의 미래 프레임을 예측하는 Transformer 기반 예측 AE로부터 나온 출력과 원본을 각각 대조학습의 음성/양성 샘플로 활용했습니다. 구체적으로, 먼저 정상 음향에서 일부 프레임을 가려 미래를 예측하는 Predictive AutoEncoder (PAE)를 학습하고, 이렇게 얻은 예측 출력은 원본과는 다른 분포(약간 손상된 복원)일 것이므로 이를 별도의 클래스로 간주합니다. 이후 다중 과제 학습으로서 기계 ID 분류(크로스엔트로피)와 대조 손실을 동시에 적용하여, 동일 ID의 원본 vs 복원 샘플을 서로 구분하도록 합니다. 이렇게 하면 모델은 정상 패턴의 세부 구조를 학습함과 동시에, 복원 산출물과 원본 간 미묘한 차이까지 구별하는 압축된 표현을 얻게 됩니다. GeCo 기법은 DCASE2020 데이터에서 AUC 93.97% / pAUC 87.34%로 이전 SOTA 대비 크게 향상된 성능을 보였다고 보고되었습니다. 이는 재구성(생성) 학습과 대조(분류) 학습을 결합하면 얻을 수 있는 시너지를 잘 보여줍니다.
요약: 자기지도/대조학습 기반 접근의 강점은 풍부한 표현학습을 통해 도메인 일반화 성능을 높일 수 있다는 점입니다. 사전학습 모델 활용이나 contrastive 기법은 First-shot 상황에서 특히 유용한데, 한 섹션(소수 데이터)만으로 학습하더라도 이미 학습된 표현을 재사용하거나 다른 데이터로 보강하기 때문에 새 기계에서도 최소 튜닝으로 높은 성능을 기대할 수 있습니다. 단점으로는 훈련 과정이 복잡해지고, 이상 점수를 뽑는 방법이 간접적일 수 있어 (예: 분류 확률, 임베딩 거리 등) threshold 설정에 주의가 필요합니다. 하지만 최근 연구결과들에 따르면 이러한 표현학습 접근이 기존 재구성 기반을 큰 폭으로 능가하고 있어 (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection), DCASE 2025에서도 핵심 기법으로 고려됩니다.
3. Transformer 기반 모델
Transformer와 어텐션 메커니즘은 시계열 음향 데이터를 장기 의존성까지 모델링할 수 있어, ASD 분야에서도 점차 활용되고 있습니다. Transformer를 활용하는 방향은 크게 두 가지로 나뉩니다: (1) Transformer를 특징 추출 백엔드로 사용하는 방법, (2) Transformer를 생성 모델로 사용하는 방법입니다.
첫째로, Transformer를 백엔드로 쓰는 경우, 일반 CNN 대신 Spectrogram Patch에 어텐션을 적용하는 Spectrogram Transformer (AST)나, CNN+Transformer 혼합 구조인 Conformer 등을 사용할 수 있습니다. 예컨대 한 연구에서는 Transformer의 주의집중 메커니즘을 활용해 주파수 패턴에 집중하는 ASD 방법을 제안하기도 했습니다 ([PDF] Anomalous Sound Detection Using Self-Attention-Based Frequency ...). Transformer는 다중 헤드 어텐션을 통해 특정 주파수 대역이나 시간 구간의 이상에 강하게 반응하도록 학습될 수 있는데, 이는 복잡한 기계음에서 일부분만 이상이 생기는 상황에서 유리합니다. 또한 DCASE2023 2위팀처럼 Transformer를 세그먼트 풀링 모듈로 써서 여러 조각의 임베딩을 통합하는 데 사용한 사례도 있습니다 (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection). 이들은 프레임 임베딩 시퀀스를 Transformer Encoder에 통과시켜 전체 파일 단위의 표현을 얻고, 이를 분류/검출에 활용했습니다. 이러한 어텐션 기반 풀링은 단순 평균이나 최대값 풀링보다 시퀀스 내 유의미한 프레임에 가중치를 줄 수 있어 이상치 탐지 성능을 높입니다.
둘째로, Transformer를 생성 모델로 활용하는 사례로 앞서 언급한 Predictive AutoEncoder(PAE)나 마스킹 기반 AE가 있습니다. 예를 들어 Masked Acoustic Modeling 방식으로 입력 신호의 일부를 가리고 Transformer로 나머지를 보고 복원하게 하면(BERT 유사 방식), 모델은 정상 음향의 내부 구조를 이해하게 되고 비정상 입력에서는 복원 오류가 커집니다. Transformer의 장기 의존성 학습 능력 덕분에, 과거 LSTM이나 CNN 기반보다 연속된 사운드 패턴을 더 잘 모델링하여 시간적인 이상 탐지에 우수함을 보입니다. 한편 Transformer-AE에 ID 조건부 제약을 건 연구(앞서 소개)가 있었듯이, Transformer 기반 AE 역시 도메인 혼합 데이터로 학습하면 과도한 일반화가 생길 수 있어 조건부 학습 또는 도메인 구분이 필요합니다 (Transformer-based autoencoder with ID constraint for unsupervised anomalous sound detection | EURASIP Journal on Audio, Speech, and Music Processing | Full Text).
Transformer 기반 모델의 장점은 강력한 표현력과 유연성입니다. 충분한 데이터를 학습하면, 미세한 음향 변화나 복잡한 패턴도 포착할 수 있고, 다양한 도메인에 대한 인지(attention) 재할당이 가능하여 도메인 적응/일반화에 유리합니다. 반면 단점으로, 일반적으로 모델 파라미터 수가 많아 학습 비용이 높고, 데이터가 적을 때는 과적합 우려가 있습니다. DCASE2025 환경에서는 RTX 4090 * 4대까지 사용 가능하므로 비교적 큰 모델도 실험해볼 수 있으나, First-shot(섹션 1개) 학습 데이터는 매우 적기 때문에 사전학습 없이 Transformer를 처음부터 학습하는 것은 비효율적입니다. 따라서 Transformer를 쓰려면 사전학습(기존 데이터나 공개 음향 데이터로) 또는 타 기계 데이터와 합쳐 멀티도메인 학습이 필수적입니다. 실제로 DCASE2023 이후 공개된 방법들을 보면, Transformer를 사전학습 특성 융합이나 pooling에 활용하고, 최종 검출은 다른 간단한 모델과 결합하는 식으로 하이브리드 설계를 하는 경향이 있습니다 (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection).
4. 하이브리드 및 앙상블 접근
최고 성능을 위해서는 종종 여러 접근을 결합한 하이브리드 모델이나 다수 모델의 앙상블이 활용됩니다. 예를 들어 DCASE2022 상위 솔루션 중 하나는 속성 분류기와 GMM 클러스터링 기반 모델 두 가지를 학습한 후, 이들의 앙상블로 최종 이상 점수를 산출했습니다. 분류기 기반 점수(섹션 예측 확률)와 GMM 기반 점수(특징 클러스터 밀도)를 결합함으로써 서로 다른 성질의 탐지기가 보완 작용을 한 것입니다. 그 결과 개별 모델보다 향상된 성능으로, 앞서 언급한 타겟 도메인 AUC 78.5%를 달성했습니다. 또 다른 예로, DCASE2023 1위팀은 알려진 정상/이상 데이터를 최대한 활용하기 위해 여러 모델의 앙상블을 구성한 것으로 알려져 있습니다 (구체 수치는 미공개이지만, 2위와 근소한 차이로 1위를 차지함). 이들은 대규모 분류기 기반 모델에 푸리에 스케일 특성 및 k-NN 등 복수 탐지기 결과를 조합한 것으로 추정됩니다 (First-Shot Unsupervised Anomalous Sound Detection With Unknown Anomalies Estimated by Metadata-Assisted Audio Generation). 일반적으로 앙상블은 각 모델의 오탐/미탐 경향이 다를 때 유효하며, ASD에서도 다양한 스펙트럼 대역이나 시간 해상도로 학습된 모델을 결합하면 보다 안정적인 검출이 가능합니다.
하이브리드 접근의 또 다른 사례는 교사-학생(Teacher-Student) 모델입니다. 이는 지식증류를 이용한 기법으로, 복수의 교사모델 또는 사전학습된 강력한 모델이 정상 데이터를 통해 학생 모델에게 지식을 전달하도록 학습합니다. 테스트 시에는 학생 모델 단독으로 입력을 재구성하거나 분류하고, 교사 대비 출력의 차이를 이상 점수로 삼습니다. 예를 들어 과거 Koizumi 등 (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING)의 연구에서는 여러 정상 조건에 대해 훈련된 거대 네트워크(교사)를 준비해 놓고, 각 새로운 기계에 대해 작은 네트워크(학생)를 교사의 출력을 모방하도록 학습시켰습니다. 정상 입력에 대해서는 학생이 교사를 잘 따라가지만, 이상 입력에서는 학생이 본 적 없는 패턴이기 때문에 교사 출력을 제대로 재현하지 못해 오차가 증가합니다. 이러한 Teacher-Student 방법은 라벨 불필요, 복잡한 분포 학습에 유리하여 DCASE 초창기 대회들에서 활용되었으며, 특히 다중 Section/ID를 활용할 수 있을 때 효과적이었습니다. 다만 First-shot 설정(섹션 1개)에서는 교사를 사전에 잘 준비해야 하고, 새로운 기계마다 학생을 훈련시켜야 하므로, 메모리/시간 비용과 구현 복잡도가 다소 높습니다.
종합하면, 최고 성능을 노린다면 하나의 기법만으로는 한계가 있으므로 복합적인 전략을 취하는 것이 일반적입니다. 그러나 DCASE2025 규정상 가능한 단순한 통합 구조가 권장되므로, 앙상블보다는 하나의 모델 안에 여러 기법의 아이디어를 넣는 방향이 바람직합니다. 예를 들어 “사전학습+Transformer 풀링+재구성+대조 손실”을 하나의 모델/학습 절차로 구현하고, 최종 점수 계산만 ensemble처럼 여러 기준을 종합하는 식입니다.
다음 섹션에서는 이러한 모델을 학습시킬 때 도메인 차이 대응과 새로운 기계로의 일반화(first-shot)를 달성하기 위한 전략을 구체적으로 설명합니다.
도메인 일반화와 First-shot 문제 대응 전략
DCASE2025에서는 평가 시 완전히 새로운 도메인의 기계음이 등장하며, 기계당 단 한 섹션의 데이터만으로 모델을 훈련해야 합니다 (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING). 또 평가 데이터에 라벨이 없으므로 사후 튜닝이 불가능하며, 개발 단계에서 획득한 모델/파이프라인을 즉시 배포해야 하는 시나리오입니다. 이 섹션에서는 이러한 제약을 극복하기 위한 기법들을 다룹니다.
도메인 차이에 대한 일반화 (Domain Generalization)
도메인 일반화(domain generalization)란, 모델이 학습 시 경험하지 못한 새로운 환경이나 조건에서도 성능 저하 없이 동작하도록 만드는 것입니다. 기계음의 도메인 차이는 예를 들어 작동속도 변화, 부하 변화, 다른 설치 환경(잡음, 반향) 등으로 인해 발생합니다. DCASE2021 Task2에서는 도메인 적응 (소스→타겟 미세조정)이 가능하다고 가정했지만, 2022년부터는 도메인 레이블 없이 한 번에 통합된 모델을 만들어야 하는 도메인 일반화로 바뀌었습니다 ([2206.05876] Description and Discussion on DCASE 2022 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Applying Domain Generalization Techniques).
이를 위한 대표적인 기법으로 도메인-혼합 학습과 도메인-분리 학습 두 가지가 있습니다 ([2206.05876] Description and Discussion on DCASE 2022 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Applying Domain Generalization Techniques):
- 도메인 혼합(domain mixing): 서로 다른 도메인의 데이터를 의도적으로 섞어 학습 데이터로 제공합니다. 예를 들어, 같은 기계의 소스 도메인 녹음과 타겟 도메인 녹음을 믹싱(Mixup)하거나, 한 도메인의 배경잡음을 다른 도메인의 기계음에 합성하여 새로운 가상 도메인 데이터를 생성합니다. 이렇게 하면 모델이 다양한 조건에서 공통적으로 유지되는 특징에 집중하게 되어 더욱 일반적인 표현을 배우게 됩니다 ([2206.05876] Description and Discussion on DCASE 2022 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Applying Domain Generalization Techniques). 실제로 2022년 팀들의 많은 방법들이 SpecMix나 Mixup을 통해 도메인 사이의 경계를 흐리는 전략을 취했습니다. 한편 SpecAugment의 시간 축, 주파수 축 마스킹도 일종의 혼합으로 볼 수 있습니다. SpecAugment를 적용하면 모델이 특정 주파수대나 시간구간에 의존하지 않게 되어, 환경 잡음이나 기계 상태 변화로 일부 스펙트럼이 달라져도 견디게 해줍니다. 배경 소음 전용 데이터가 별도로 주어진 경우, 이를 정상 기계음과 합성하여 다양한 SNR(신호대잡음비)의 데이터를 만드는 것도 혼합 학습의 한 예입니다. 이렇게 Clean 기계음 + Noise 데이터를 광범위하게 만들어두면, 실제 테스트 환경의 잡음 수준이 어떻든 모델이 대비할 수 있습니다. DCASE2025에서는 이러한 배경 잡음 데이터 활용이 옵션으로 주어지므로, 가능하면 깨끗한 기계음과 잡음 데이터를 각각 모델링한 후 합성하여 학습세트를 확장하는 방안을 고려할 수 있습니다.
- 도메인 분리(domain-classification/conditioning): 모델이 입력 데이터를 암묵적으로 도메인 구분하도록 유도하거나, 아예 도메인 레이블 예측을 병렬 과제로 넣는 방법입니다 ([2206.05876] Description and Discussion on DCASE 2022 Challenge Task 2: Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Applying Domain Generalization Techniques). 예를 들어 앞서 설명한 속성 분류 자기지도 모델에서는 도메인(or 섹션)을 별도 분류하였는데, 이는 명시적 도메인 분리 학습의 한 예입니다. 명시적 레이블이 없는 경우에는, 클러스터링이나 클래스별 모델로 분리합니다. 2022년 상위권 솔루션의 GMM 클러스터링은 서로 다른 도메인 데이터들이 별개 클러스터로 형성되도록 유도하고 (필요하면 PCA 등으로 투영하여), 테스트 시 해당 클러스터들을 개별 정상 분포로 간주해 거리 계산을 했습니다. 또는 아예 기계×도메인 조합별로 별도 모델/인코더를 두고, 테스트 시 입력에 맞는 모델을 선택하는 방법도 있습니다. 다만 First-shot 제약으로 학습 시 각 기계에 한 섹션밖에 없으므로, 기계 내에 여러 도메인 데이터가 존재하지는 않습니다. 대신 Reference 데이터셋(이전 연도들)에서 다양한 도메인 조건을 볼 수 있으므로, 개발 단계에서는 이러한 참조 데이터를 활용해 도메인 분리 특성을 익혀놓고, 새로운 기계에서는 적은 데이터로도 대응하는 전략이 필요합니다. 예컨대 multi-task 학습으로, 과거 여러 기계/도메인의 데이터를 투입해 한 분기에서는 기계 종류 분류, 다른 분기에서는 도메인 식별자를 분류하도록 학습할 수 있습니다. 이렇게 하면 모델 내부 특징 공간이 자연스럽게 “기계별-도메인별”로 정렬되어, 새로운 기계의 경우에도 작은 변화(예: 환경소음 변화)가 특성 공간에서 기존에 학습한 범주(도메인 변화)에 투영될 수 있습니다. 또 다른 기법으로 AdaBN (Adaptive BatchNorm)이 있는데, 이는 사전학습 모델의 배치정규화 통계를 새로운 데이터로 업데이트하여 도메인 차이를 보정하는 방식입니다. 실제 응용 시, 레이블이 없는 새로운 기계 정상 데이터를 통해 BN 계층의 평균/분산을 재계산하고 모델을 통과시키면, 그 환경에 맞게 특성이 정규화되어 이상 탐지 민감도가 올라갈 수 있습니다.
First-shot 문제, 즉 새로운 기계에 대해 최소한의 데이터로 학습/적용하는 문제에 대해서는 메타 학습(Meta-learning) 개념도 고려됩니다. 메타학습은 다양한 기계 타입에 대한 학습 경험을 바탕으로, 새로운 기계에 빠르게 적응할 수 있는 모델 초기 가중치를 찾는 접근입니다. 예를 들어 MAML (Model-Agnostic Meta-Learning) 기법을 활용하면, 이전까지 본 여러 기계들에서 공통 패턴을 학습하되 각 기계별 미세 튜닝에 민감한 파라미터로 설정해놓아, 새로운 기계의 적은 데이터로도 몇 번 gradient update만으로 최적화가 되도록 할 수 있습니다. DCASE2023의 SELD(Task4) 분야에서는 메타학습 활용 보고가 있지만 (DCASE-Workshop-Papers/2023/README.md at main · abikaki/DCASE-Workshop-Papers · GitHub) (DCASE-Workshop-Papers/2023/README.md at main · abikaki/DCASE-Workshop-Papers · GitHub), ASD 분야에서는 아직 메타학습이 주류로 등장하진 않았습니다. 그러나 few-shot 학습 관점에서, 메타학습이나 프로토타입 기반 훈련(기계마다 프로토타입 임베딩 형성 후 거리 계산) 등은 First-shot 문제에 유용할 수 있습니다.
정리하면, 도메인 일반화를 위해 학습 데이터 구성 단계에서 (혼합 vs 분리) 전략을 활용하고, 모델 구조/학습 단계에서 자기지도 분류나 메타학습 등을 활용할 수 있습니다. 실제 대회에서는 이 두 접근을 절충하여 사용하기도 하는데, 예를 들어 한 상위권 모델은 “Spectrogram 특징+MobileNet” 기반 모델을 학습시키면서 자체적으로 도메인 속성을 분류하도록 하고, 한편으로 추가 데이터로 domain mixing 증강을 실시하여 두 효과를 모두 노렸습니다.
새로운 기계에 대한 사전 지식 활용
First-shot 상황에서는 새로운 기계의 이상치를 볼 수 없으므로, 이전 연도 데이터나 유사 기계 데이터를 최대한 활용하는 것이 중요합니다. DCASE2025에서는 2020~2024 Task2의 데이터를 사용할 수 있도록 했습니다. 이를 잘 활용하는 방안으로 사전학습(Pretraining)과 아웃라이어 노출(Outlier Exposure)이 있습니다:
- 사전학습 & 미세조정: 먼저 다수의 기계 유형과 환경을 포함한 과거 데이터를 비지도 또는 자기지도 방식으로 사전학습합니다. 예를 들어 모든 과거 정상 데이터를 모아 거대한 오토인코더를 학습하거나, 혹은 위에서 언급한 Wav2Vec2/HuBERT 등을 과거 기계음에 추가 파인튜닝하여 “기계음 전문” 사전모델을 얻을 수 있습니다. 그런 다음 새로운 기계의 정상 데이터를 사용해 짧은 에폭 동안 미세조정합니다. 이때 주의할 점은 하이퍼파라미터 튜닝 없이 공통된 전략으로 가야 하므로, 미세조정의 러닝레이트, 에폭 등을 모든 기계에 고정해야 합니다. 모델 구조도 통일되어야 합니다. 그러므로 사전학습 단계에서 최대한 일반적인 표현을 습득하게 하고, 새로운 데이터로는 가중치를 살짝 조정하거나 (필요시 BN 통계만 업데이트하는 등) few-shot 학습을 진행합니다. 이런 두 단계 학습 파이프라인(사전학습->미세조정)은 First-shot 조건에서 매우 권장되는 전략입니다. 사전학습을 통해 모델은 이상치에 대한 일반 개념도 어느 정도 익힐 수 있습니다. 예를 들어 과거 데이터에는 해당 기계의 이상치 레이블도 일부 존재하므로 (개발 셋엔 ground truth가 있으므로), 이를 활용해 반지도(semi-supervised) 학습으로 정상/이상 분류기를 예비로 학습시켜 둘 수 있습니다. 혹은 이상치 데이터를 노이즈로 간주해 노이즈 적응 훈련을 해볼 수도 있습니다. 하지만 레이블 활용은 공정성 문제로 권장되진 않으므로, 대신 Pseudo-Anomaly Generation 방식이 고려됩니다.
- 의사 이상치 생성 및 노출: 새로운 기계의 이상치를 알 수 없으나, 생성 모델을 통해 그럴듯한 이상 소리를 만들어내어 학습에 활용하는 시도가 있습니다. 한 예로 DCASE2023 참가자들은 텍스트-투-오디오 생성모델(AudioLDM)을 기계 메타정보로 미세조정하여, “ToyCar breakdown noise”와 같은 텍스트로 해당 기계의 가상 이상음을 생성했습니다 (First-Shot Unsupervised Anomalous Sound Detection With Unknown Anomalies Estimated by Metadata-Assisted Audio Generation) (First-Shot Unsupervised Anomalous Sound Detection With Unknown Anomalies Estimated by Metadata-Assisted Audio Generation). 이렇게 얻은 합성 이상음을 추가 학습 데이터로 사용하여 기존 정상모델을 보강하면, 아예 이상 데이터를 전혀 쓰지 않은 모델보다 실제 이상 검출력이 향상됩니다. 실제 보고에 따르면, 이 방법으로 개발된 FS-TWFR-GMM 모델은 DCASE2023에서 상위권에 올랐으며, 불과 1% 수준의 파라미터(비딥러닝 GMM 기반)로도 대형 딥러닝 모델에 필적하는 성능을 냈다고 합니다 (First-Shot Unsupervised Anomalous Sound Detection With Unknown Anomalies Estimated by Metadata-Assisted Audio Generation) (First-Shot Unsupervised Anomalous Sound Detection With Unknown Anomalies Estimated by Metadata-Assisted Audio Generation). 이러한 Outlier Exposure 기법은, 비슷한 범주의 다른 기계나 생성 모델로부터 “이상스럽게 들리는” 샘플들을 확보하여 모델이 미리 경계하도록 만드는 것입니다. 간단한 형태로는, 타 기계 정상음을 대상 기계의 훈련에서 음성(pair)로 사용하거나, 정상음에 각종 변조(피치 변환, 속도 변화, 필터링 등)를 가해 품질이 낮은 음을 생성해 이상치로 취급하는 방법도 있습니다. 다만 주의점은, 너무 과도한 왜곡은 실제 이상과 무관할 수 있어서 모델이 잘못 학습할 위험이 있다는 것입니다. 따라서 생성/노출되는 pseudo-anomaly는 “기계 고장시에 날 법한” 합리적인 변이여야 합니다. 이를 위해 도메인 지식을 사용할 수도 있습니다. (예: 모터류 기계는 베어링 손상 시 쇳소리가 섞인다 -> 정상음에 쇳소리 효과를 섞기).
종합 권장 파이프라인
위 논의를 토대로 DCASE2025를 위한 권장 학습 파이프라인을 구성하면 다음과 같습니다:
- 멀티도메인 사전학습: 과거 DCASE Task2의 모든 정상 데이터를 활용하여 대규모 표현 학습 모델을 사전학습합니다. 방법은 오토인코더+대조학습 혼합 또는 사전학습 가중치 활용 중 택일합니다. 자원이 충분하므로 두 접근을 결합할 수도 있습니다. 예를 들어, 우선 공개된 대규모 음성 사전학습 모델(wav2vec 2.0 등)을 초기화로 쓰고, 거기에 과거 기계음 데이터를 넣어 자기지도 학습 (예: 기계ID 분류)을 수행합니다. 결과적으로 모든 기계 종류를 구분하는 거대한 분류기 겸 특징 추출기가 얻어집니다. 이 단계에서 SpecAugment, 속도/피치 변조, 배경혼합 등 가능한 모든 증강을 적용해 모델의 도메인 불변성을 키웁니다. 또한 Batch Norm 등의 정규화 통계를 다양한 도메인으로 학습하여, 이후 새 데이터가 들어와도 극단적으로 벗어난 분포로 인식되지 않도록 합니다.
- 기본 모델 아키텍처 확정: 사전학습된 모델을 기반으로, 본선에 사용할 기본 모델 구조를 정합니다. 예를 들어 “CNN 특성 추출 + Transformer Pooling + MLP 헤드”나 “Transformer-AE + 임베딩 거리기반 검출” 등 한 가지 일관된 구조를 채택합니다. 구조는 단순할수록 좋으며, 핵심은 모든 기계에 공통으로 적용된다는 점입니다. 각 기계별로 다른 네트워크를 쓴다 해도, 아키텍처 형태는 동일하게 유지하고 가중치만 별도로 관리하는 식이어야 합니다.
- 기계별 정상 모델 학습: 새로운 기계가 주어지면, 해당 기계의 정상 데이터를 사용해 1단계 모델을 미세조정 또는 전용 모델 학습을 합니다. 데이터가 적으므로 학습 에폭을 짧게 가져가거나 학습률을 낮게 설정하여 과적합을 방지합니다. 가능하다면, 사전학습된 표현 부분은 동결하고 마지막 밀집 레이어나 통계치만 업데이트하여 few-shot 학습의 안정성을 높입니다. 오토인코더의 경우 이 단계에서 훈련을 마무리하고, 이상 검출 기준(복원오차 통계)을 확보합니다. 만약 분류기 기반이라면 이 단계에서 실제 분류기는 큰 의미가 없을 수 있으므로(새 기계 단일 클래스), 대신 unsupervised 방법(예: 클러스터링, One-class SVDD 등)으로 정상 분포를 형성합니다. 예를 들어, 사전학습된 공통 표현 공간에서 새로운 기계 정상 샘플들의 가우시안 모델(평균 μ, 공분산 Σ)을 적합시켜 놓으면, 이는 곧 그 기계의 정상분포 모델이 됩니다.
- 검출 단계 (추론): 각 기계별로 학습된 모델/분포로부터 이상 점수 산출 함수를 정의합니다. 이는 다음 섹션에서 자세히 다루겠지만, 대표적으로 복원 오류(AE일 경우), Mahalanobis 거리(확률모델일 경우), 최근접 이웃 거리(메모리 기반) 등이 있습니다. 여러 스코어가 있는 경우 앙상블 결합이나 정규화 후 평균 등을 통해 최종 점수를 계산합니다. Threshold 설정은 평가 단계에서는 필요 없고, AUC 및 pAUC 산출로 대신하므로 우선은 연속적인 점수만 출력합니다. (운영 단계에서는 목표 FPR 등에 맞춰 임계치를 잡으면 됩니다.)
- 사후 검증 및 튜닝: 개발 단계에서는 공개된 검증용 데이터로 위 파이프라인을 테스트하여, 하이퍼파라미터 공통값을 조정합니다. 예컨대, 모든 기계 공통의 복원 오류 이상임계 비율(예: 상위 1%)이나, k-NN에서 k 값, Mahalanobis 거리 사용 시 정규화 방식 등을 이때 결정합니다. 이 값들은 이후 새로운 평가세트에도 그대로 적용해야 하므로, 검증 결과 가장 평균적인 성능을 주는 설정으로 고정합니다. GPU 메모리 최적화나 배치 크기 등도 이 단계에서 조정하여 4-GPU 환경을 최대한 활용하되 OOM이 발생하지 않도록 합니다.
이렇게 정해진 모델과 파이프라인으로 최종 평가셋의 이상 점수를 산출하면 됩니다. 요약하면, “멀티도메인 사전학습 → 새로운 기계에 신속 적응 → 통계적 이상판정”의 흐름입니다. 이는 실제 신규 공장 기계에 ASD 시스템을 배포하는 절차와도 유사하며, First-shot 취지에 부합합니다 (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING).
데이터 증강 기법과 추가 데이터 활용
데이터 증강(Data Augmentation)은 적은 정상 데이터를 불리는 동시에 모델의 일반화 성능을 높이는 열쇠입니다. 앞서 부분적으로 언급하였지만, 여기서는 ASD 성능 향상에 실험적으로 검증된 증강 기법들을 정리합니다:
- SpecAugment: 원래 음성인식 등에서 제안된 기법으로, 스펙트로그램에서 임의의 주파수 대역 또는 시간 구간을 마스킹(제로화)하거나 축소하는 방식입니다. ASD에서도 일부 팀들이 SpecAugment를 사용하여 모델이 특정 주파수 특징에 과의존하는 것을 막았습니다. 예를 들어 정상 기계음에 특징적으로 나타나는 톤(tone)이 있을 때, 주파수 마스킹을 적용하면 모델은 그 톤이 없어도 나머지 정보를 보고 정상 여부를 판단할 수 있게 됩니다. 이는 만약 이상 상황에서 그 톤이 유지되거나, 반대로 정상인데 톤이 사라지는 경우에도 오인 검출을 줄이는 효과가 있습니다. 다만 지나친 마스킹은 정상/이상 구분에 필요한 핵심 정보까지 잃게 할 수 있으므로, 한번에 10% 미만 영역만 가리는 정도로 적용하는 것이 좋습니다 (예: 전체 멜 밴드 중 23개 밴드 마스킹 등).
- Mixup 및 배경 소음 합성: Mixup은 두 샘플의 입력과 라벨을 비율에 따라 섞는 기법입니다. 비지도 학습에서는 명시적 라벨이 없으므로 입력 신호 두 개를 랜덤 가중치로 합성하여 가상 중간 형태를 만드는 용도로 쓰입니다. 같은 기계음 끼리 Mixup하면 한 쪽에는 있는 패턴, 다른 쪽에는 없는 패턴들이 섞여 새로운 소리가 만들어지는데, 이는 실제로는 일어나지 않을 수 있는 경우라서 조심스럽게 사용해야 합니다. 한편, 배경 소음 추가는 훨씬 현실적인 증강입니다. 공장 환경의 소음, 바람 소리 등을 녹음한 Noise-only 데이터를 적절한 SNR로 정상 기계음과 합성하면, 모델이 신호 대 잡음비 변화에 견디도록 학습됩니다. 이러한 배경소음 합성은 도메인 일반화에도 도움이 되는데, 예를 들어 마이크 위치가 달라져 잡음비가 바뀌더라도 모델이 노이즈에 불변한 특성을 추출하게 만들 수 있습니다. DCASE2022 top 시스템에서도 추가 배경잡음 데이터셋 (ToyADMOS, MIMII-DUE)을 활용하여 기존 데이터에 합성함으로써 성능을 높였습니다.
- 피치/속도 변환: 앞서 소개한 Status augmentation이 대표적이며, 기계음의 재생속도를 조절하거나 또는 피치를 변화시켜 다른 작동 상태음을 모방합니다 (Exploring Large Scale Pre-Trained Models for Robust Machine Anomalous Sound Detection). 예를 들어 5% 정도 빠르게 또는 느리게 재생하면, 모터가 고속/저속으로 돌아가는 효과가 납니다. 이러한 증강을 통해 모델은 “속도가 달라져도 여전히 같은 정상 범주”라는 것을 배우게 되어, 나중에 실제 속도 변화로 인한 도메인 차이에 둔감해집니다. 피치 시프팅은 벨트 소리나 팬 소리의 공명 주파수가 달라진 경우를 흉내낼 수 있습니다. 다만 속도/피치 변환을 크게 적용하면 음색 자체가 변질되어 이상처럼 들릴 위험이 있으므로, ±5~10% 이내로 적용합니다.
- 필터링 및 왜형(Waveform shaping): 고주파 성분을 다소 감쇄하거나, 반대로 저주파를 필터링하여 주파수 대역별 중요성을 모델이 학습하게끔 할 수 있습니다. 또한 오디오에 미세한 랜덤 왜곡(폴리포니 생성, 에코 추가 등)을 주어, 강건한 특징만 남기고 분석하도록 유도할 수 있습니다. 일부 연구에서는 오디오를 부분적으로 잘라내고 이어붙이는 self-challenge를 수행하기도 했습니다. 예컨대, 한 파일 내 절반 구간만 사용하거나 순서를 뒤섞는 등의 자기지도 증강을 통해 모델을 어렵게 학습시키면, 보다 일반화된 판단 기준을 얻게 됩니다.
- SMOTE 및 Synthetic Minority Oversampling: 이는 이상치가 아예 없거나 적지만, 만약 정상 내에 어떤 하위 패턴이 드물게 존재한다면(예: 특정 드문 작동 상태), 그 패턴을 증강으로 불려줄 수 있습니다. DCASE2022 솔루션에는 gwrp-SMOTE라는 변형이 사용되었는데, 이는 임베딩 공간에서 소수 샘플들을 보간하여 추가 샘플을 만드는 기법입니다. 이런 방식으로 정상 데이터 내 다양한 분포를 충분히 메꿔놓으면, 그 밖의 점은 이상으로 더 뚜렷이 구분됩니다.
깨끗한 기계음/노이즈 전용 데이터 활용
Clean 기계음이란 환경잡음이나 간섭이 거의 없는 순수한 기계동작 소리를 말합니다. 만약 이러한 데이터가 확보된다면, 이를 활용하는 두 가지 전략이 있습니다. (1) 깨끗한 기계음을 모델 사전학습에 사용: 이상 탐지의 이상적인 시나리오는 잡음이 제거된 상태에서의 기계 소리 비교이므로, 깨끗한 데이터를 모델이 먼저 학습하면 잡음 속 실제 데이터에서도 잡음성분을 무시하고 핵심 기계소리 이상만 감지할 수 있습니다. 예를 들어 Clean 데이터를 가지고 오토인코더를 학습해 놓은 후, 실제 잡음 있는 데이터에 그 모델을 적용하면, 잡음 부분은 복원 오류가 커지겠지만 이는 정상 잡음으로 간주하고 threshold를 높게 잡으면 됩니다. (2) Clean + Noise 데이터를 합성하여 다양한 SNR 샘플 생성: 앞서 말한 대로, 깨끗한 신호에 강도별로 노이즈를 섞어서 from clean to noisy 연속체를 만듭니다. 이를 모델에 학습시키면, 모델은 자연스럽게 “같은 기계음이지만 다른 잡음 레벨”들을 한 범주로 인식하게 되어 잡음 변화에 일반화됩니다.
Noise-only 데이터 활용은 주로 (2) 경우로 겹칩니다. 추가로, Noise-only를 특별한 클래스로 취급해 모델을 훈련시킬 수도 있습니다. 예컨대, 정상 기계음과 순수잡음을 2클래스 분류로 학습하고, 순수잡음 클래스에 속하면 (만약 기계 소리가 거의 없고 잡음만 들리는 경우) 이를 이상으로 처리하는 식입니다. 하지만 기계 고장음이 꼭 잡음만 있는 것은 아닐 수 있어, 이보다는 차라리 Noise 특성 제거 쪽에 집중하는 것이 좋습니다. 이를테면 노이즈 인코더와 기계음 인코더 두 부분을 모델에 두고, 노이즈 전용 데이터는 노이즈 인코더로 재구성, 기계음은 기계 인코더로 재구성하도록 분리학습한 뒤, 테스트 시 노이즈 인코더 출력은 무시하고 기계 인코더 출력만 가지고 이상 여부를 판단하는 것입니다. 이처럼 소스분리 개념을 도입하면, 배경소음에 강인한 이상 탐지가 가능해집니다. 다만 구현 복잡도가 높아질 수 있고, DCASE2025 규정의 가능한 단순 구조 원칙에 어긋날 수 있으므로, 필요한 경우 간단한 노이즈 저감 전처리(예: spectral gating) 정도만 적용하고 메인 모델은 일관되게 가져가는 것이 무난합니다.
이상 점수 산출 및 성능 향상 기법
이상 탐지 모델의 출력(특징)을 최종 이상 Score로 변환하는 방법 역시 성능에 큰 영향을 줍니다. DCASE 평가에서는 일반적으로 AUC와 pAUC(부분 AUC)이 사용되므로, 연속적인 이상 점수의 순위 품질이 곧 성능을 좌우합니다 (First-Shot Unsupervised Anomalous Sound Detection With Unknown Anomalies Estimated by Metadata-Assisted Audio Generation). 여기서는 효과적인 이상 점수 산출 방법들과 학습상의 트릭을 다룹니다:
이상 Score 계산 방법
- 재구성 오차 기반 점수: 오토인코더류 모델에서는 입력 X와 복원 $\hat{X}$ 간 거리로 이상도를 계산합니다. 대표적으로 프레임별 MSE(mean squared error) 또는 MAE(mean absolute error)를 구하고, 그것을 파일 단위로 평균하거나 최대값을 취하여 점수를 냅니다. 장점은 이상 신호의 스펙트로그램 부분에서 오차가 높게 나와 직관적이라는 점입니다. 다만 앞서 언급한 대로, 평균보다는 최대값 또는 상위 p% 프레임 평균 등이 짧은 이상에 민감하게 반응합니다. DCASE2023/24 baseline에서도 파일 내 최대 프레임 오차를 점수로 쓰는 Simple AE 모드가 기본이었습니다 (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING) (DESCRIPTION AND DISCUSSION ON DCASE 2024 CHALLENGE TASK 2: FIRST-SHOT UNSUPERVISED ANOMALOUS SOUND DETECTION FOR MACHINE CONDITION MONITORING). 오토인코더 기반 모델의 경우, 정상 데이터에서의 오차 분포를 이용해 정규화해주는 것도 도움이 됩니다. 예를 들어 학습 데이터에서 오차 평균과 표준편차를 계산해 두었다가, 테스트 시 각 점수를 정규화($z$-score)하면 기계마다 오차 스케일이 달라 혼동되는 문제를 줄일 수 있습니다.
- 임베딩 유사도 기반 점수: 분류기나 대조학습 기반 모델에서는 출력이 임베딩 벡터이거나 각 클래스에 대한 확률 분포입니다. 이때는 훈련된 정상 클래스(또는 프로토타입)와의 거리/유사도로 이상 여부를 판단합니다. 한 방법으로 최근접 이웃 거리(k-NN)가 널리 쓰입니다. 정상 훈련 임베딩을 모두 메모리에 저장하고, 테스트 임베딩이 이 중 가장 가까운 것들과 얼마나 떨어져 있는지 보는 것입니다. 거리에 기반한 점수는 Euclidean 거리나 Cosine 유사도(내적) 등을 쓸 수 있습니다. 특히 Cosine 유사도는 네트워크가 정규화된 임베딩(예: 마지막에 L2 Normalize)으로 출력하도록 했을 때 유용하며, 1에 가까울수록 정상, 0이나 음수에 가까울수록 이상으로 볼 수 있습니다. k-NN의 k 값은 보통 1이나 2로 하는데, 1-NN 거리만 봐도 충분한 경우가 많습니다. 2021년의 한 접근법에서는 각 기계 ID별로 임베딩을 모아 퍼지 k-NN 방식을 썼는데, 최솟값과 차순위 거리 등을 함께 고려해 소프트 스코어링을 함으로써 성능이 향상되었습니다.
- Mahalanobis 거리 (마할라노비스): 이는 임베딩 공간에 가우시안 분포를 가정하고 계산하는 거리입니다. 공분산 $\Sigma$를 고려하여 스케일 정규화된 거리를 재는 것으로, 멀티모달한 분포보다는 각 모드에 개별 적용합니다. DCASE2024 베이스라인 중 Selective Mahalanobis 모드가 있었는데, 이는 AE로 인코딩한 잠재벡터의 일부 차원(선택된 차원)에 대해 가우시안 모형을 만들고 Mahalanobis 거리를 구한 것입니다. Mahalanobis의 장점은 각 특징의 상관관계를 반영해 종합적인 확률 이상도를 제공한다는 점입니다. 특히 임베딩 차원이 높을 때 유용합니다. 계산시 공분산 행렬이 풀랭크가 아니거나 이상치에 민감할 수 있으므로, 정규화 기법(예: Ledoit-Wolf shrinkage)으로 공분산을 안정적으로 추정하는 것이 포인트입니다. Mahalanobis 점수는 거리 그 자체보다는 마할라노비스^2 값에 대한 카이제곱 누적분포로 p-value를 산출하면 직관적 threshold 결정이 가능합니다 (예: p-value < 0.001이면 이상 등).
- 밀도 기반 (GMM, KDE): 임베딩 또는 특징에 대한 확률밀도 추정을 통해 이상도를 계산할 수도 있습니다. GMM(혼합 가우시안 모델)을 정상 데이터에 학습시키고, 테스트 데이터의 로그 likelihood를 점수로 사용하는 방식이 대표적입니다. 밀도 추정 기반은 이상도 해석에 이론적 근거가 강하지만, 고차원에서는 정확한 추정이 어려워 성능이 들쑥날쑥할 수 있습니다. 실시간성 면에서도 GMM은 컴팩트하지만, 커널 밀도 추정(KDE) 같이 메모리에 모든 샘플을 두는 방법은 k-NN처럼 비용이 늘어납니다.
- 복합 스코어 및 앙상블: 여러 점수를 결합하면 더 높은 AUC를 얻는 경우가 많습니다. 예를 들어, 재구성 오차 + 임베딩 유사도 두 가지를 정규화하여 합산하면, 재구성 기반 모델에서 특정 이상치 유형에 놓치는 부분을 임베딩 유사도가 보완해줄 수 있습니다. DCASE2023 1위팀은 CNN 임베딩 기반 점수와 푸리에 변환 특징 기반 점수를 결합했다고 알려져 있으며, 2022 1위팀도 속성 분류 점수+GMM 점수를 앙상블하여 사용했습니다. 앙상블 방법으로는 단순 평균 외에 최소값 또는 최대값 선택, 가중 평균 등이 고려될 수 있는데, 일반적으로는 다양한 스코어를 랭크로 변환한 뒤 평균 rank를 사용하는 것이 견고합니다. 다만, DCASE2025에서는 하나의 모델로 단순화하는 것을 권고하므로 여러 서로 다른 모델의 점수를 앙상블하기보다는, 한 모델의 여러 출력(예: 복원오차와 분류확률)을 결합하는 식으로 구현할 것을 권장합니다.
학습 최적화 트릭 및 하이퍼파라미터 설정
끝으로, 실험적으로 밝혀진 몇 가지 학습 트릭과 설정 팁을 정리합니다:
- 배치 구성 및 러닝레이트 스케줄: 비지도 학습일지라도 배치를 구성할 때 다양한 기계와 도메인 샘플이 섞이도록 하면 학습이 안정됩니다. 한 배치 내에 동일 기계 음만 들어가면 배치정규화 등이 그 기계에 치우칠 수 있으므로, 사전학습 단계에서는 배치를 크게 하여 (가능하면 GPU 메모리가 허용하는 최대치) 여러 종류 데이터를 동시에 보게 합니다. Contrastive 학습 시에는 배치 크기가 곧 음성/양성 쌍 수효와 직결되므로, 4090 4대라면 분산 병렬을 사용해 배치크기를 키우는 것도 방법입니다. 러닝레이트는 사전학습 단계에서 Cosine Annealing이나 One-cycle policy 등으로 초반 빠르게 줄였다가 미세 튜닝 단계에서는 낮은 상수값으로 유지하는 것이 일반적입니다. First-shot 단계에서는 데이터가 적으므로 조기 종료(Early stopping)를 적용, 일정 에폭 동안 검증 기준 향상이 없으면 멈춰 과적합을 피합니다.
- 모델 초기화와 정규화: 대규모 모델을 사용할 경우 사전학습 가중치로 초기화하는 것이 필수에 가깝습니다. 만약 사전학습이 어려운 구조라면, 최소한 비지도 사전훈련(AE로 여러 기계 학습)이라도 해서 가중치를 저장합니다. 정규화 측면에서는 Layer Normalization + Residual 연결이 많은 Transformer 구조의 경우 비교적 안정적이지만, CNN 기반일 경우 Batch Normalization이 도메인 차이를 완화해주는 역할을 합니다. BN 사용 시, 도메인 혼합 배치 전략과 함께 쓰면 특정 도메인 특성이 평균값으로 상쇄되어 일반화에 도움이 됩니다. 추가로 드롭아웃이나 SpecCutout(specaugment의 일종)으로 모델 용량 대비 데이터를 늘리는 효과를 줍니다.
- 손실 함수와 훈련 안정화: 비지도학습에서 딱히 정답 라벨이 없으므로, 훈련 목표를 잘 정해야 합니다. 재구성 모델은 MSE 손실을 쓰지만, 이는 때로 정상 데이터 내 특정 샘플의 오류를 지나치게 키워 “최대 false negative 최소화” 방향으로 과적합될 수 있습니다. 이를 완화하기 위해 Koizumi 등은 Batch Uniformization 기법을 제안했는데, 이는 한 미니배치 내의 최대 복원오차를 줄이는 추가 코스트를 주어 “모든 정상 샘플에 대해 고르게 낮은 오차”를 달성하게 하는 정규화입니다. 이러한 트릭을 사용하면 정상 데이터 중 이상치처럼 오차가 큰 사례가 없도록 만들어, threshold를 설정하기 쉽게 해줍니다. 자기지도 분류의 경우, 라벨 불균형 (섹션 하나 vs 다른 섹션 여러개 등)을 조정하기 위해 Focal Loss나 가중 크로스엔트로피를 사용하면 특정 클래스 과대적합을 막을 수 있습니다. Contrastive 학습 시 temperature 파라미터나 양성/음성 샘플 비율 등을 잘 튜닝해야 하는데, 일반적으로 오디오의 경우 음성쌍보다 음성쌍을 더 많이 제공하고 temperature는 0.07~0.1 정도로 두는 것이 좋았습니다.
- Threshold 설정: 비지도 평가에서는 threshold를 안 쓰지만, 실제 운영을 생각하면 False Alarm을 어느 정도 허용할지를 정해야 합니다. pAUC는 낮은 FPR(예: 0.1 이하) 구간의 AUC를 의미하므로, pAUC를 높이려면 이 구간에서 True Positive Rate을 높이는 방향으로 모델을 만들어야 합니다. 하나의 팁은, 정상 데이터의 최대 점수를 억제하는 것입니다. 만약 정상 데이터 중에도 이상하게 점수가 높게 나오는 꼬리 부분이 있으면, threshold를 내릴 수밖에 없어 pAUC가 떨어집니다. 이를 막기 위해 학습 중 정상 데이터의 최대 이상점수(margin)를 줄이는 부손실을 줄 수도 있고 (앞서 Batch Uniformization 아이디어), 또는 스스로 Threshold를 높여보며 학습하는 Self-challenge 기법도 고려됩니다. Self-challenge란, 모델이 한 번 예측을 하고 나서 가장 오류 높았던 부분을 제거/보정하여 재학습하는 방법으로, 점점 어려운 조건으로 모델을 단련하는 것입니다. 이런 방식으로 정상 데이터 어디에서도 너무 큰 오차가 발생하지 않도록 유도하면, 임계치를 상대적으로 높게 잡을 수 있어 오탐률을 낮춘 채로 재탐지율을 끌어올릴 수 있습니다.
- 경량화 및 최적화: RTX 4090 * 4라는 자원이 있지만, 속도 최적화도 고려해야 합니다. 특히 evaluation data에서는 레이블이 없으므로 빠르게 모든 파일의 스코어를 산출해야 합니다. 가능하면 훈련한 모델을 TorchScript나 ONNX로 변환해 배포하고, 병렬 처리를 활용하면 좋습니다. 또한 각 모델의 파라미터 수를 너무 크게 하지 않아야, 기계별 여러 모델을 쓰는 경우 메모리 부족이 없습니다. DCASE2023의 한 방법처럼 작은 GMM기반 모델로도 상위권 성능을 낼 수 있었던 만큼, 꼭 딥러닝 계층 수를 늘리지 않아도 됩니다. 효율적인 방법은 Large 모델로 표현 학습하되, 추론시는 k-NN이나 GMM으로 단순화하는 것입니다. 이때 큰 모델로 추출한 임베딩만 저장하면 여러 기계에 대해 한 번에 메모리를 적게 쓰면서 처리할 수 있습니다.
아키텍처 및 기법 비교 요약
아래 표는 앞서 언급한 주요 접근법들의 특징과 장단점을 요약한 것입니다:
접근법 대표 기법 (사례) 도메인 일반화 대응 First-shot 적합성 장점 단점/주의점
재구성 기반 | CNN Autoencoder, VAE, IDNN | 다중도메인 학습 시 과적합 우려 → ID 조건부 AE로 보완 | ★★★ (적은 데이터로도 학습 가능) | 완전 비지도 학습 가능, 이상 원인 해석이 비교적 용이 | 도메인 변경에 취약, 복원 잘하면 이상 놓칠 위험 |
분류 기반 | Section 분류기(MobileNet), One-class SVM | 도메인 속성 멀티태스크 학습으로 일반화 | ★★★ (적은 정상으로도 가능) | 구현 간단 (신경망 출력 확률 이용), 도메인변화에 강인 | 정상 레이블만으로 학습 → 임베딩 편향 시 오탐 가능 |
대조학습 기반 | Outlier Exposure, SimCLR 변형 | 다른 기계음을 pseudo-anomaly로 활용 | ★★★ (사전학습 필요) | 표현 학습 통해 높은 구분력, 새로운 타입에도 일반화 | 세부 튜닝 복잡 (쌍 선택 등), 이상 점수 간접적 |
Transformer 기반 | AST/Conformer, Transformer-AE | 멀티헤드 어텐션으로 도메인 불변 특징 포착 | ★☆ (데이터 많아야 유리) | 장기 패턴 모형화 우수, 복합 이상 탐지에 효과 | 파라미터 多, 소량 학습시 과적합 위험 |
사전학습 모델 활용 | Wav2Vec2/Hubert 파인튜닝 | 대규모 음성코퍼스로 일반화 능력 확보 | ★★★ (few-shot에 매우 유리) | 사전학습 덕에 적은 데이터로도 고성능, 2023 2위 입증 | 음성 특화모델 한계 가능 (기계음 특이 패턴 미포착) |
혼합/앙상블 | 분류+GMM 앙상블, AE+kNN 결합 | 각 모듈별로 부분 대응, 최종적 강건성↑ | ★★★ (모델별 추가학습 필요) | 여러 기준 종합으로 전체 성능 극대화 | 구현 복잡, 실시간 적용시 리소스 부담 |
생성 모델 기반 | AudioLDM 이상음 합성, Diffusion | 도메인 기술(프롬프트)로 새로운 상황 생성 | ★★☆ (사전 작업 필요) | 이상 데이터 없이도 모델 훈련 가능, 특이 상황 대비 | 생성 품질에 성능 좌우, 추가 데이터 준비 필요 |
★ 기준: 별 3개 = 우수 / 별 1개 = 보통
표에서 보듯, 사전학습+표현학습 기반 접근과 앙상블/혼합 접근이 전반적으로 높은 성능을 기대할 수 있지만, 구현 복잡도는 다소 높습니다. 반면 전통적인 AE 기반은 여전히 간결하고 First-shot 적용이 쉽지만 도메인 일반화에는 약점이 있습니다. Transformer나 생성기반은 혁신적이지만 데이터와 리소스가 뒷받침되어야 합니다. 따라서 최종 제안으로는, “사전학습된 대규모 모델+경량 이상 검출기” 형태로 가져가되, 오토인코더의 재구성 오류와 분류기/임베딩의 거리를 합산하는 하이브리드 모델을 하나 구축하는 것을 권장합니다. 예를 들어, CNN-Transformer 인코더로 멜스펙트로그램을 임베딩한 후, 디코더 없이 임베딩을 저장하고, 한편으로 동일 인코더 출력으로 복소 스펙트럼 일부를 예측하도록 self-supervised 학습을 합니다. 그렇게 학습된 임베딩에 대해 k-NN+Mahalanobis 점수와 부분 재구성 오류 점수를 모두 구하고 평균내는 식의 단일 시스템을 구상할 수 있습니다. 이처럼 각 접근의 장점을 하나로 융합하면서도, 전체 파이프라인은 기계별로 동일하게 적용되도록 구성하면 DCASE 2025 Task2에서 높은 AUC와 pAUC를 달성할 것으로 기대됩니다.
참고문헌 (References)
- DCASE 2020–2024 Task 2 대회 Technical Report 및 상위권 팀 보고서 등. (각주에서 상세 인용)
- Koizumi 등, “Batch uniformization for minimizing maximum anomaly score of DNN-based anomaly detection in sounds,” WASPAA 2019.
- Purohit 등, “Deep autoencoding GMM-based unsupervised anomaly detection in acoustic signals,” DCASE Workshop 2020.
- Xiao 등, “The DCASE2022 Challenge Task 2 System: Unsupervised ASD with self-supervised attribute classification and GMM,” Tech Report 2022.
- Han 등, “Exploring Large-Scale Pre-Trained Models for Robust Machine ASD,” DCASE Workshop 2023 (2nd place).
- Zeng 등, “Joint Generative-Contrastive Representation Learning for ASD (GeCo),” arXiv 2023.
- Koo et al., “First-Shot ASD with Unknown Anomalies via Audio Generation,” arXiv 2024
'Projects' 카테고리의 다른 글
CycleNet 후속 연구 계획서 (0) | 2025.05.03 |
---|---|
SegMamba 기반 3D 의료 영상 분할 정확도 향상을 위한 연구 계획서 (0) | 2025.05.03 |
Language-Based Audio Retrieval (DCASE 2025 Task 6) 연구 계획 (0) | 2025.05.03 |
VOTS 2025 챌린지 연구 계획 (1) | 2025.05.01 |
음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획 (0) | 2025.05.01 |