1. 연구 목적
본 연구는 새로운 딥러닝 모델인 GeoTransMol을 개발하여, 기존의 분자 특성 예측 모델들, 특히 Tox21 및 ToxCast와 같은 독성 예측 작업에서 더 우수한 성능을 달성하는 것을 목표로 합니다. GeoTransMol은 2D 그래프 구조와 3D 기하학적 정보를 통합하여 분자의 포괄적인 특성을 포착하며, 대규모 레이블 없는 데이터셋을 활용한 자기 지도 학습을 통해 모델의 일반화 능력을 향상시킵니다. 구체적으로, TransFoxMol이 ToxCast invitrodb v4.1 데이터셋에서 달성한 AUC 0.868을 초과하는 성능을 목표로 합니다.
2. 배경 및 중요성
분자 특성 예측은 약물 발견 및 개발에서 핵심적인 역할을 합니다. 최근 연구에서는 그래프 신경망(GNN)과 트랜스포머 기반 모델들이 분자 특성 예측에서 뛰어난 성능을 보여주었습니다. 예를 들어, TransFoxMol은 집중된 주의 메커니즘을 활용하여 ToxCast 데이터셋에서 AUC 0.868을 달성하며, 기존 모델들(GROVER, SMILES Transformer 등)을 능가했습니다. 그러나 TransFoxMol은 주로 2D 그래프 구조에 의존하며, 분자의 3D 기하학적 정보를 충분히 활용하지 못하는 한계가 있습니다.
3D 기하학적 정보는 분자 특성, 특히 입체 구조에 의존하는 독성 특성 예측에서 중요한 역할을 합니다. GEM과 같은 모델은 기하학적 정보를 통합하여 15개 MoleculeNet 벤치마크에서 평균 8.8%의 회귀 성능 향상을 달성했습니다. 또한, 자기 지도 학습은 레이블이 부족한 상황에서 모델 성능을 향상시키는 데 효과적임이 입증되었습니다. 본 연구는 이러한 선행 연구를 바탕으로, 2D와 3D 정보를 결합하고 자기 지도 학습을 활용하여 더 강력한 모델을 개발하고자 합니다.
3. 제안된 방법론
3.1 모델 아키텍처: GeoTransMol
GeoTransMol은 그래프 트랜스포머를 기반으로 하며, 2D 그래프 구조와 3D 기하학적 정보를 동시에 처리하도록 설계됩니다. 주요 구성 요소는 다음과 같습니다:
- 그래프 트랜스포머: 분자의 2D 그래프 구조를 처리하기 위해 그래프 트랜스포머를 사용합니다. 분자는 원자(노드)와 결합(엣지)로 표현되며, 원자 특성(원자 번호, 방향족성, 연결도)과 결합 특성(결합 유형, 방향)을 입력으로 사용합니다. 이는 TransFoxMol의 접근 방식을 확장한 것입니다.
- 기하학적 특성 통합: 3D 좌표 정보를 활용하여 원자 간 거리, 결합 각도, 이중면 각도를 계산합니다. 이러한 기하학적 특성은 별도의 입력 채널로 제공되거나, 다중 헤드 주의 메커니즘에 통합됩니다. 예를 들어, 주의 메커니즘의 일부 헤드는 그래프 연결성에 집중하고, 다른 헤드는 3D 공간에서의 근접성에 집중하도록 설계됩니다. 이는 GEM의 원자-결합-각도 관계 모델링에서 영감을 받았습니다.
- 집중된 주의 메커니즘: TransFoxMol의 집중된 점곱 주의(Focused Dot Product Attention)를 채택하여, 중요한 분자 상호작용을 강조합니다. 이는 모델이 약리학적으로 중요한 부분(예: 극성 원자)에 더 많은 가중치를 부여하도록 돕습니다.
3.2 사전 학습
사전 학습은 Zinc15 데이터셋의 약 2천만 분자를 사용하여 수행됩니다. RDKit과 MMFF94를 활용하여 3D 구조를 생성하며, 다음과 같은 자기 지도 학습 작업을 설계합니다:
- 마스킹된 원자 예측: 분자의 15% 원자를 마스킹하고, 주변 원자와 결합 정보를 바탕으로 마스킹된 원자의 특성을 예측합니다.
- 결합 길이 예측: 특정 결합의 길이를 예측합니다.
- 결합 각도 예측: 세 원자로 형성된 결합 각도를 예측합니다.
- 이중면 각도 예측: 네 원자로 형성된 이중면 각도를 예측합니다.
- 원자 거리 행렬 예측: 원자 쌍 간의 거리를 0-20Å 범위에서 30개 구간으로 나누어 다중 클래스 분류 문제로 처리합니다.
이러한 작업은 분자의 구조적 및 기하학적 특성을 학습하는 데 기여하며, GEM에서 성공적으로 적용된 접근 방식을 확장합니다.
3.3 미세 조정
미세 조정은 MoleculeNet의 Tox21 및 ToxCast 데이터셋에서 수행됩니다. 이 데이터셋들은 독성 관련 특성을 예측하는 데 사용되며, 클래스 불균형 문제가 존재할 수 있습니다. 이를 해결하기 위해 다음과 같은 전략을 채택합니다:
- 손실 함수: 클래스 불균형을 고려하여 focal loss를 사용합니다. 이는 소수 클래스에 더 높은 가중치를 부여하여 학습을 강화합니다.
- 오버샘플링 기법: MLSMOTE와 MLSOL을 적용하여 소수 클래스 데이터를 합성합니다. 이는 첨부 문서에서 TransFoxMol의 성능 향상에 기여한 것으로 확인되었습니다.
4. 실험 설계
4.1 데이터셋
단계 데이터셋 크기 용도
사전 학습 | Zinc15 | 2천만 분자 | 자기 지도 학습 |
미세 조정 | Tox21 | 약 8,000 분자 | 독성 예측 (분류) |
미세 조정 | ToxCast | 약 8,600 분자 | 독성 예측 (분류) |
- Zinc15: 사전 학습을 위해 RDKit을 사용하여 3D 구조를 생성합니다.
- Tox21 및 ToxCast: 스캐폴드 분할(80/10/10)을 사용하여 훈련, 검증, 테스트 세트를 구성합니다.
4.2 평가 지표
모델 성능은 다음과 같은 지표로 평가됩니다:
- AUC (Area Under the Curve): 전체 성능을 평가하며, TransFoxMol의 AUC 0.868을 초과하는 것을 목표로 합니다.
- F1 점수: 정밀도와 재현율의 조화 평균.
- 재현율 (Recall): 실제 양성 샘플 중 올바르게 예측된 비율.
- 정밀도 (Precision): 양성으로 예측된 샘플 중 실제 양성의 비율.
4.3 기준선
GeoTransMol의 성능은 다음 모델들과 비교됩니다:
- TransFoxMol: ToxCast에서 AUC 0.868을 달성한 SOTA 모델.
- GROVER: 대규모 분자 데이터에 사전 학습된 그래프 트랜스포머.
- SMILES Transformer: SMILES 문자열을 기반으로 한 모델.
- 표준 GNN 모델: GCN, GAT 등.
4.4 컴퓨팅 자원
- 하드웨어: 다중 GPU 클러스터(NVIDIA A100 또는 V100).
- 예상 훈련 시간:
- 사전 학습: 약 2-3주 (20M 분자, 배치 크기 128).
- 미세 조정: 약 3-5일 (Tox21/ToxCast, 배치 크기 64).
- 소프트웨어: PyTorch, RDKit, PyTorch Geometric을 사용하며, 혼합 정밀도 훈련을 적용하여 효율성을 높입니다.
5. 예상 결과
GeoTransMol은 Tox21 및 ToxCast에서 TransFoxMol(AUC 0.868)을 초과하는 AUC 및 F1 점수를 달성할 것으로 예상됩니다. 3D 기하학적 정보는 입체 구조에 의존하는 독성 특성 예측에서 특히 유리할 것입니다. 자기 지도 학습은 소규모 레이블 데이터에서도 강력한 표현을 학습하여 일반화 성능을 향상시킬 것입니다.
Ablation Study:
- 3D 기하학적 정보의 기여도를 평가하기 위해 2D-only 모델과 비교.
- 각 사전 학습 작업(마스킹된 원자 예측, 결합 길이 예측 등)의 효과를 개별적으로 분석.
예상 성능:
데이터셋 모델 예상 AUC 예상 F1 점수
ToxCast | GeoTransMol | >0.870 | >0.330 |
ToxCast | TransFoxMol | 0.868 | 0.328 |
Tox21 | GeoTransMol | >0.845 | >0.424 |
Tox21 | TransFoxMol | 0.804 | 0.424 |
6. 일정
기간 | 활동 |
1-2개월 | 데이터 수집 및 전처리 (3D 구조 생성) |
3-4개월 | GeoTransMol 구현 및 사전 학습 |
5개월 | 미세 조정 및 성능 평가 |
6개월 | Ablation study 및 결과 분석 |
7개월 | 연구 논문 작성 및 제출 준비 |
7. 결론
GeoTransMol은 2D와 3D 정보를 통합하고 자기 지도 학습을 활용하여 분자 특성 예측의 새로운 기준을 제시할 가능성이 높습니다. 특히, 독성 예측 작업에서 TransFoxMol을 능가하는 성능을 달성함으로써 약물 발견 및 개발에 기여할 것으로 기대됩니다. 본 연구는 기하학적 정보와 사전 학습의 중요성을 강조하며, 향후 다중 모달 학습 및 대규모 언어 모델과의 통합 가능성을 탐구할 수 있는 기반을 제공할 것입니다.
'Projects' 카테고리의 다른 글
의료 영상 캡셔닝 요약 전략 정리 (0) | 2025.05.09 |
---|---|
화학물질 독성 예측을 위한 클래스 불균형 해소 연구계획서 (0) | 2025.05.03 |
CycleNet 후속 연구 계획서 (0) | 2025.05.03 |
SegMamba 기반 3D 의료 영상 분할 정확도 향상을 위한 연구 계획서 (0) | 2025.05.03 |
Language-Based Audio Retrieval (DCASE 2025 Task 6) 연구 계획 (0) | 2025.05.03 |