이 논문은 분자 속성 예측 작업을 위한 새로운 다중 모달 분자 표현 학습 모델인 SGGRL을 제안합니다. 분자 속성 예측은 신약 개발 및 설계 과정에서 매우 중요한 역할을 합니다. 전통적인 실험 방법은 비용이 많이 들고 시간이 오래 걸리기 때문에 최근에는 기계 학습, 특히 딥 러닝 기반의 분자 속성 예측 방법이 주목받고 있습니다. 이러한 방법에서 분자 표현 학습은 성능의 핵심 요소입니다.
기존에는 시퀀스 기반, 그래프 기반, 기하 기반 등 단일 모달리티에 초점을 맞춘 분자 표현 학습 방법들이 제안되었습니다.
- 시퀀스 기반 방법은 분자를 SMILES (Simplified Molecular Input Line Entry System) 문자열로 표현하고, 자연어 처리 분야의 기술을 활용하여 각 문자열의 특성을 추출합니다. 이를 통해 광범위한 전역 정보를 포착할 수 있습니다. 예를 들어, SMILES 인코딩은 원자, 결합, 화학 원자가, 특정 작용기 및 키랄성 정보(@, /, 등)를 나타냅니다. 그러나 시퀀스 기반 방법은 분자의 위상 정보(topology)가 부족하여 표현 능력이 제한됩니다.
- 그래프 기반 방법은 분자를 원자를 노드로, 결합을 엣지로 하는 그래프로 표현합니다. 이러한 그래프는 원자 연결성, 고리 수 및 크기 등 분자의 위상 정보를 제공합니다. 그래프 기반 방법, 특히 그래프 신경망(GNN)은 이웃 정보를 집계하여 분자 표현을 추출하며 분자 생성 및 분자 속성 예측 작업에서 효과를 입증했습니다. 하지만 그래프 기반 방법은 유사한 위상을 갖지만 속성이 다른 그래프에 어려움을 겪을 수 있으며, 키랄성이나 분자 형태(conformation)와 같은 중요한 정보를 포함하지 않습니다.
- 기하 기반 방법은 분자의 기하학적 수준 정보에 더 중점을 둡니다. 형태는 종종 RDKit과 같은 화학 도구를 사용하여 생성됩니다.
단일 모달 방법은 분자를 포괄적으로 설명할 수 없습니다. 키랄성, 작용기, 골격(scaffold), 화학 원자가, 분자 위상, 형태 정보 등은 분자 속성에 영향을 미치는 요소들입니다. 따라서 보다 포괄적인 분자 표현을 얻기 위해 다중 모달리티를 활용하는 방법의 필요성이 대두되었습니다. 기존에는 그래프와 시퀀스를 결합하거나 그래프와 기하 정보를 결합하는 두 가지 모달리티를 사용하는 방법들이 있었지만, 여전히 하나의 모달리티가 부족하여 분자를 완전히 표현하지 못했습니다.
이러한 문제들을 해결하기 위해 논문은 SMILES 시퀀스, 분자 그래프, 분자 기하 모달리티의 특징을 통합하는 다중 모달 분자 표현 학습 모델인 SGGRL을 제안합니다.
SGGRL 모델 구조: SGGRL 프레임워크는 세 가지 주요 모듈로 구성됩니다. 그림 2에 전체 개요가 나와 있습니다.
- 분자 인코더 모듈 (Molecular Encoder Module): 분자 특징을 포괄적으로 포착하기 위해 시퀀스 기반 인코더, 그래프 기반 인코더, 기하 기반 인코더를 사용하여 각기 다른 모달리티에서 정보를 추출합니다.
- 시퀀스 인코더 (Sequence Encoder): SMILES 시퀀스를 입력받아 처리합니다. SMILES는 방향성이 없기 때문에 단방향 순환 신경망으로는 분자 정보를 정확하게 포착할 수 없습니다. SGGRL은 Bi-LSTM (Bidirectional LSTM) 유닛을 사용하여 SMILES 문맥 정보를 포착합니다. 변환기(transformer) 기반의 인코더를 사용하며, SMILES 시퀀스를 원-핫 인코딩으로 매핑한 후 Bi-LSTM을 통과시킵니다.
- 그래프 인코더 (Graph Encoder): 분자를 원자 집합 V와 결합 집합 E로 구성된 그래프 G=(V,E)로 설명합니다. SGGRL은 CMPNN (Communication Message Passing Neural Network)을 기본 그래프 인코더로 사용하여 원자 표현을 얻습니다. CMPNN은 AGGREGATE 및 COMMUNICATE 구성 요소로 구성되며, 이웃 정보를 집계하고 위상적 특징을 포착합니다.
- 기하 인코더 (Geometry Encoder): 분자 기하 정보를 통합하기 위해 기하 그래프 H=(V,E,A)를 사용합니다. GEMGNN 및 GINE를 도입하여 각 입력 기하 그래프의 노드 표현을 얻습니다. 이는 원자, 결합, 각도 정보를 통합하여 학습합니다.
- 각 모달리티 인코더 후에 GlobalAttentionPool 레이어를 사용하여 분자 수준 표현인 Hs, Hg, Hh를 얻습니다. 이는 중요한 정보를 효과적으로 포착하고 중복 정보를 줄이기 위함입니다.
- 융합 및 예측 모듈 (Fusion and Prediction Module): 포괄적인 정보를 포착하기 위해 융합 레이어를 설계하여 세 가지 모달리티의 표현(Hs, Hg, Hh)을 결합합니다. 이 융합은 학습 가능한 가중치와 편향 벡터를 사용하여 수행됩니다. 최종 융합 표현(Hfusion)은 분자 속성 예측을 위한 예측기(F)의 입력으로 사용됩니다.
- 일관성 모듈 (Consistency Module): 다른 모달리티의 잠재 공간 간의 차이를 제거하고 호환성과 일관성을 극대화하기 위해 유사성 기반의 대조 학습 메커니즘(contrastive learning mechanism)을 도입합니다. 이는 동일한 분자에 대한 표현의 유사성을 최대화하고 다른 분자에 대한 표현의 유사성을 최소화하도록 SGGRL을 훈련합니다. 구체적으로는 NT-Xent 손실을 각 모달리티 쌍(Zs와 Zg, Zs와 Zh, Zg와 Zh)에 대해 적용합니다. 최종 손실 함수는 예측 작업 손실(분류를 위한 LBCE 또는 회귀를 위한 LMSE)과 대조 손실(Lcl)을 합한 조인트 손실(Joint Loss)을 사용하며, 비율 α를 통해 두 손실의 균형을 조절합니다.
실험 및 결과: SGGRL의 효과를 검증하기 위해 MoleculeNet의 7개 벤치마크 데이터셋(5개 분류, 2개 회귀)에서 실험이 수행되었습니다. 데이터셋은 BACE, BBBP, SIDER, ClinTox, Tox21 (분류), FreeSolv, ESOL (회귀)를 포함합니다.
- 기준 모델 (Baselines): 시퀀스 기반 (RNNS2S, ST), 그래프 기반 (GIN, CMPNN), 기하 기반 (GEM, Uni-Mol), 다중 모달 (GraSeq, 3D Infomax, GraphMVP) 등 총 9가지 모델과 비교되었습니다.
- 실험 설정: 무작위 분할 및 스캐폴드 분할 방식에 따라 데이터셋을 훈련, 검증, 테스트 세트(8:1:1 비율)로 분할하고, 5번의 독립적인 실행을 통해 평균과 표준 편차를 계산했습니다. 분류 작업에는 ROC-AUC, 회귀 작업에는 RMSE를 평가 지표로 사용했습니다. 하이퍼파라미터는 표 II에 요약되어 있습니다.
- 주요 결과: SGGRL은 7개 벤치마크 데이터셋 모두에서 기준 모델들보다 뛰어난 성능을 보였습니다.
- 분류 작업에서 BACE 91.7%, BBBP 96.7%, Clintox 97.9%, Sider 68.2%, Tox21 84.7%의 ROC-AUC를 달성했으며, 이는 차선 모델에 비해 평균 3.35%의 상대적 성능 향상입니다.
- 회귀 작업에서 ESOL 0.628, FreeSolv 0.847의 RMSE를 달성했으며, 이는 차선 모델에 비해 평균 0.441의 RMSE 감소입니다.
- 특히 Clintox 97.9%와 BBBP 96.7%에서 높은 성능을 달성했습니다.
- GraSeq, 3D Infomax, GraphMVP와 같은 기존 다중 모달 방법과 비교하여 SGGRL은 시퀀스, 그래프, 기하 모달리티를 모두 통합하고 효과적인 융합 및 일관성 학습 메커니즘을 통해 성능이 크게 향상되었습니다.
- 소규모 데이터셋(BACE, FreeSolv)에서도 우수한 성능과 안정성을 보였습니다.
Ablation Studies: 다중 모달 메커니즘, GlobalAttentionPool 레이어, Bi-LSTM 인코딩 연산의 효과를 검증하기 위한 Ablation Study 결과가 표 IV에 제시되어 있습니다.
- 시퀀스, 그래프, 기하 모달리티 중 하나를 제거한 이중 모달 방법보다 SGGRL이 유의미하게 우수한 성능을 보였습니다. 이는 시퀀스, 그래프, 기하 모달리티 모두를 활용하는 것이 분자 특징 및 정보를 더 포괄적으로 포착할 수 있음을 입증합니다.
- 기하 모달리티의 개별적인 기여도는 다른 모달리티에 비해 작을 수 있으며, 이는 분자 형태가 무작위로 생성되기 때문일 수 있다고 분석되었습니다.
- Bi-LSTM을 사용하여 시퀀스 특징을 전처리하는 방법이 임베딩 및 위치 임베딩 레이어를 사용하는 방법보다 우수했습니다. 이는 SMILES 시퀀스가 비방향적이며 Bi-LSTM이 양방향 정보를 추출할 수 있기 때문입니다.
- GlobalAttentionPool을 사용하는 방법이 GlobalMeanPool을 사용하는 방법보다 우수했습니다. AttentionPool 레이어가 다른 모달리티의 더 중요한 정보에 집중하여 중복 문제를 해소하기 때문이라고 설명됩니다.
분자 표현 시각화: SGGRL의 대표적인 능력을 시각적으로 보여주기 위해 BBBP 데이터셋에서 GraphMVP, CMPNN, GraSeq, SGGRL이 학습한 분자 표현을 T-SNE를 사용하여 시각화했습니다. 그림 3에서 볼 수 있듯이, 네 모델 모두 분자 속성의 분리를 달성했으며, CMPNN, GraSeq, SGGRL이 더 명확한 결과를 보여줍니다. SGGRL의 분류 경계가 가장 뚜렷했습니다. 이는 SGGRL이 다른 모달리티의 정보를 결합하여 분자 의미를 더 정확하게 포착한다는 것을 재확인시켜 줍니다.
결론: 이 논문은 분자 속성 예측을 위한 다중 모달 분자 표현 학습 모델 SGGRL을 제안했습니다. SGGRL은 시퀀스 기반, 그래프 기반, 기하 기반 인코더를 사용하여 다른 모달 정보를 포함하는 분자 표현을 획득하고, GlobalAttentionPool Readout 레이어와 가중치 다중 모달 융합 레이어를 통해 분자 수준 표현을 얻고 최종 분자 표현을 융합합니다. 또한, 다른 모달 표현의 호환성과 일관성을 달성하기 위해 다중 모달 대조 학습 작업 모듈을 도입했습니다. 실험 결과 SGGRL이 여러 기준 모델 대비 최첨단 성능을 달성하고 경쟁력을 보여주었습니다.
향후 연구: 저자들은 향후 분자 표현 연구를 계속 탐색하고 SGGRL을 개선할 계획입니다. 특히 모달 인코더와 융합 메커니즘이 다중 모달 분자 표현 모델의 핵심 모듈이며, 더 대표적인 인코더와 더 효과적인 융합 메커니즘이 더 정확한 분자 표현을 달성하는 데 도움이 될 수 있습니다. 현재 SGGRL은 독립적인 모달 인코딩 과정과 후기 융합(late fusion) 방식을 고려하여 높은 이식성을 제공합니다. 향후 인코딩 과정에서 더 많은 상호작용을 고려하여 더 포괄적인 다중 모달 정보를 포착하고, SGGRL의 다른 생화학적 작업에 대한 적용을 탐색할 예정입니다.