AI & Statistics Lab

Projects

화학물질 독성 예측을 위한 클래스 불균형 해소 연구계획서

AIStat 2025. 5. 3. 22:42

1. 서론

화학물질의 독성 예측은 신약 개발, 환경 보호, 공중 보건 등 다양한 분야에서 필수적입니다. 그러나 독성 데이터는 일반적으로 클래스 불균형 문제를 가지고 있습니다. 예를 들어, Tox21 데이터셋에서는 독성 화합물(양성 클래스)이 비독성 화합물(음성 클래스)보다 훨씬 적습니다. 이로 인해 기계학습 모델이 양성 클래스를 제대로 학습하지 못하고, 음성 클래스에 편향되는 경향이 있습니다.

기존 연구에서는 MLSMOTE(Multilabel Synthetic Minority Over-sampling Technique)와 MLSOL(Multilabel Synthetic Oversampling Based on Local Label Imbalance)을 사용하여 클래스 불균형을 해결하려 했습니다. MLSMOTE는 소수 클래스 샘플을 합성하여 데이터 균형을 맞추며, MLSOL은 로컬 레이블 분포를 고려해 합성 샘플을 생성합니다. 그러나 이러한 방법은 비현실적인 샘플을 생성하거나 과적합을 유발할 수 있습니다.

본 연구는 그래프 신경망(GNN)과 Focal Loss를 결합한 새로운 접근 방식을 제안합니다. GNN은 분자의 구조적 특성을 효과적으로 학습하며, Focal Loss는 소수 클래스에 더 많은 학습 가중치를 부여하여 불균형 문제를 해결합니다. 이 방법은 합성 샘플 생성의 단점을 피하면서 모델 성능을 향상시킬 가능성이 있습니다.

2. 문헌 검토

그래프 신경망(GNN)은 분자 속성 예측에서 최첨단 성능을 보입니다. 예를 들어, Message Passing Neural Network(MPNN)는 분자 그래프의 구조적 정보를 학습하는 데 효과적입니다(MPNN 논문). 한편, Focal Loss는 클래스 불균형 문제를 해결하기 위해 고안된 손실 함수로, 객체 탐지와 같은 분야에서 성공적으로 사용되었습니다(Focal Loss 논문). 이는 잘 분류된 샘플의 손실을 줄이고, 어려운 샘플에 집중합니다.

또한, 불균형 그래프 분류를 다루는 연구로 G2GNN(Graph-of-Graph Neural Networks)이 있습니다. G2GNN은 이웃 그래프와 데이터 증강을 통해 추가 감독 신호를 제공합니다. 그러나 화학 데이터에 직접 적용된 사례는 드물며, 본 연구는 GNN과 Focal Loss를 결합하여 화학물질 독성 예측에 특화된 해결책을 제시합니다.

3. 연구 목적

본 연구의 주요 목적은 다음과 같습니다:

  • GNN과 Focal Loss를 활용하여 화학물질 독성 예측에서 클래스 불균형 문제를 해결하는 새로운 기법 개발.
  • 제안된 기법이 MLSMOTE 및 MLSOL보다 우수한 성능을 보임을 실험적으로 입증.
  • Tox21 및 ToxCast 데이터셋에 적용하여 효과 검증.

4. 연구 방법

4.1 데이터셋

  • Tox21: 12,000개 이상의 화합물에 대한 12개 생물학적 경로의 독성 데이터(Tox21).
  • ToxCast: 다양한 in vitro assays를 통해 수천 개 화합물의 독성 정보.

4.2 분자 표현

분자는 그래프로 표현됩니다:

  • 노드: 원자(특징: 원자 종류, 원자 번호, hybridization 등).
  • 엣지: 결합(특징: 결합 종류, 길이 등).
    RDKit 라이브러리를 사용하여 SMILES 문자열을 그래프로 변환합니다.

4.3 그래프 신경망 아키텍처

Message Passing Neural Network(MPNN)를 사용합니다. MPNN은 메시지 전달과 업데이트 단계를 통해 노드 임베딩을 학습하며, 분자 그래프에 적합합니다. 주요 하이퍼파라미터는 다음과 같습니다:

항목 설정

레이어 수 3–5
숨겨진 차원 128–256
학습률 0.001
최적화기 Adam

4.4 손실 함수: Focal Loss

Focal Loss는 다음과 같이 정의됩니다:
[
\text{FL}(p_t) = -\alpha (1 - p_t)^\gamma \log(p_t)
]
여기서:

  • ( p_t ): 모델의 예측 확률.
  • ( \alpha ): 클래스 가중치(예: 0.25).
  • ( \gamma ): Focusing parameter(예: 2).
    다중 레이블 분류를 위해 각 레이블에 대해 Focal Loss를 계산하고 합산합니다.

4.5 학습 및 평가

  • 데이터 분할: 훈련(70%), 검증(15%), 테스트(15%) 세트.
  • 학습: 조기 종료와 교차 검증을 사용.
  • 평가 지표: AUC, F1-score, Recall, Precision.
  • 비교: MLSMOTE 및 MLSOL 적용 모델과 성능 비교.

5. 기대 성과

제안된 GNN + Focal Loss 모델은 MLSMOTE 및 MLSOL보다 높은 AUC, F1-score, Recall, Precision을 달성할 것으로 예상됩니다. 특히 소수 클래스(독성 화합물) 예측 성능이 크게 개선될 것입니다. 결과는 다른 불균형 그래프 분류 문제에도 적용 가능할 것으로 보입니다.

방법 AUC F1-score Recall Precision

MLSMOTE 0.743 0.350 0.400 0.310
MLSOL 0.769 0.370 0.420 0.330
GNN + Focal Loss 0.800* 0.400* 0.450* 0.360*
*예상 값        

6. 결론

본 연구는 GNN과 Focal Loss를 결합하여 화학물질 독성 예측의 클래스 불균형 문제를 해결하는 새로운 기법을 제안합니다. 이 방법은 합성 샘플 생성의 단점을 피하며, 소수 클래스 학습을 강화합니다. 향후 다양한 GNN 아키텍처와 Focal Loss 하이퍼파라미터를 탐색하여 성능을 최적화할 계획입니다.

----------------------------------------

1. 총평 — 연구 내용의 적절성

위 연구계획서는 “GNN + Focal Loss” 조합으로 화학물질 독성 예측에서의 클래스 불균형을 해결하겠다는 명확한 목표를 갖추고 있습니다. Tox21·ToxCast 같은 표준 벤치마크를 사용하고, 기존 MLSMOTE/MLSOL 모델과 성능을 비교하겠다는 실험 설계도 기본적으로 타당합니다. 특히 합성 샘플 생성(oversampling)의 한계를 회피하려는 문제의식은 최신 연구 흐름과 부합합니다. (GitHub, Nature)

그러나 (i) 데이터 분할 및 불균형 정의의 엄밀성, (ii) 비교 대상과 지표의 다양성, (iii) Focal Loss 하이퍼파라미터·다중레이블 적응, (iv) 통계적 검정 및 재현성 등이 부족해 보입니다. 최신 불균형 학습 연구에서 권장되는 기법·평가지표·데이터 분할 전략이 충분히 반영되지 않아, 계획서만으로는 “기여 범위와 재현성”을 명확히 판단하기 어렵습니다.


2. 단계별 보완 권고 사항

단계 핵심 보완 포인트 구체적 액션 아이템

0. 문제 정의 보강 - 다중-레이블 독성 예측에서 “불균형”은 레이블별로 상이함.
- “양성/음성 비율”만으로는 문제의 난이도 설명 부족.
① Tox21 12개, ToxCast 생물학 경로별 활성률 분포표 제시.
② 레이블당 활성률 <5 % / 5–20 %처럼 난이도를 구간화하여 연구 가설 명시.
1. 데이터 전처리·분할 - 랜덤 split은 화학 구조 유사체(analog) 누수를 일으켜 과적합 성능을 과대평가. Scaffold split(Murcko-scaffold) 또는 시간순 split 사용. (arXiv, PMC)
② 중복 SMILES·염 제거, 표준화(Sanitization) 과정을 상세 기록.
2. 기준선(베이스라인) 다양화 - MLSMOTE/MLSOL만으로는 최신 불균형 완화 기법과의 비교가 부족. Class-Balanced Loss(CB-Loss) [CVPR 2019], LDAM + DRW, Logit-adjustment, Asymmetric Focal-t/AFE 등 포함.
② GNN 외 ChemProp-D-MPNN, AttentiveFP, Graphormer 같은 구조적 SOTA 모델과도 교차 비교.
3. 모델·손실 함수 설계 - Focal Loss(α, γ)의 다중레이블 적응 필요.
- 태스크마다 양성 비율이 다르므로 α를 태스크별로 달리 해야 함.
① α = α_i = (1-p_i) 계열 가중치, γ 후보 {1, 2, 3} 그리드 탐색.
② “샘플-수 기준 α 식(Effective number)”과 결합된 CB-Focal도 실험.
4. 학습 전략 - 단일 모델 성능만으로는 불안정.
- 과적합·분산 문제 점검 필요.
k-fold scaffold CV(k = 3 또는 5)로 평균 ± SD 보고.
Early-stopping 기준을 AUROC + PRAUC 복합 지표로 설정.
5. 평가 지표 확장 - AUC만으로는 불균형 상황에서 민감도가 낮음. PR-AUC, Matthews Corr. Coef., Balanced Accuracy 추가.
② 레이블 그룹(스트레스 반응 vs 핵수용체)별 매트릭스도 제시.
6. 통계적 유의성·해석 가능성 - 제안 성능 향상이 우연일 가능성 배제 필요.
- “왜 성능이 좋아졌는가”에 대한 과학적 통찰 제공.
DeLong paired AUROC 테스트로 MLSMOTE 대비 p-value 보고.
Grad-CAM for GNN·Integrated Gradients로 독성 기여 서브구조 시각화.
7. 재현성·자원·리스크 관리 - 독립 검증·오픈소스 여부 미기재. ① GitHub에 데이터 split 코드·환경(yml)·모델 가중치 공개 약속.
② GPU 요구 사양, 예상 학습 시간, 잠재적 오버피팅 리스크 명시.

3. 예상 타임라인 & 체크리스트

주차 해야 할 일 산출물

1–2주 데이터 클린업·scaffold split 구현 데이터 통계 리포트
3–5주 GNN 베이스라인(AttentiveFP, D-MPNN) + CE loss 학습 AUROC/PRAUC 벤치마크
6–7주 Focal Loss·CB-Loss·LDAM 등 손실 함수 ablation 비교 표 & 그래프
8–9주 최종 “GNN + CB-Focal” 튜닝, k-fold CV 평균±SD 성능표
10주 통계검정, 설명가능성 시각화 p-value 표, 서브구조 heatmap
11–12주 논문 초안·코드 레포 공개·재현성 체크 예비 논문, GitHub 링크

4. 결론

현재 계획은 “실무 적용성이 높은 불균형 완화 기법”을 제시한다는 점에서 의미가 큽니다. 다만 데이터 분할의 엄밀성, 비교 기법의 다양화, 하이퍼파라미터 탐색·통계 검정이 보강되지 않으면 기여도와 신뢰성이 약해질 위험이 있습니다. 위의 단계별 보완안을 반영하면 ① 학술적 설득력, ② 재현 가능성, ③ 실용적 파급효과를 모두 강화할 수 있을 것입니다.