[Introduction]
Molecular Representation Learning (분자 표현학습)을 위해 'GNN' (Graph Neural Network)이 많이 쓰인다.
GNN 이란,
분자의 원자(노드)와 결합(엣지)을 그래프로 취급하고,
각 원자가 이웃하는 다른 원자들에게 메시지를 전파하는 방식이다.
GNN이 아직 풀지 못한 점이 있다.
1. 원자의 topology(위상정보)만 해독할 수 있다.
2. 분자의 geometry info(기하정보)를 반영하지 않는다. → 대표적인 예시 : 결합각(bond-angle)
분자의 특성을 결성하는 데 있어 분자의 기하 정보는 매우 중요한 역할을 한다.
아래의 사진을 보자.
두 분자는 같은 원자들(CI, C, H)로 구성되어 있지만,
결합각도가 왼쪽은 121º, 오른쪽은 125º로 원자와 이웃 원자가 연결된 각도가 다르므로 이는 다른 물질이다.
왼쪽은 cis-1,2-DCE라고 불리는 분자이고, 오른쪽은 trans-1,2-DCE라고 불린다.
논문에서 이런 특성을 S'ame topology but different geometries' 라고 표현한다.
GNN은 이런 각도와 같은 기하정보를 해석하지 못하는 모델이라는 한계가 있다.
논문에서는 이를 보완한 모델인 'GeoGNN'을 제시한다.
[Preliminaries]
GeoGNN을 이해하기 위해서는 GNN에 대한 사전이해가 필요하다.
GNN 은 그래프 구조를 활용하여 분자의 특성을 추출하는 모델이고, 노드와 엣지로 구성되어 있다.
G는 Atom-Bond의 정보를 반영한 함수이다.
원자(atom) : 노드(node)
결합(bond) : 엣지(edge)
x_u, x_v : 원자(노드) 벡터
x_uv : 결합(엣지) 벡터
GNN에서 쓰이는 3가지 함수에 대한 이해가 필요하다.
그림에서 원자1에 대한 정보를 모은다고 생각해보자.
AGGREGATE : 이웃 원자(노드)들의 정보를 가져온다.
a_1^(K) : 원자1과 결합된 원자2와 원자4의 벡터들을 가져온다.
COMBINE : K-1번째 까지의 자기 자신의 정보와 이웃 정보를 포함하여 업데이트 한다.
h_1^(K) : k-1까지의 원자1의 벡터와 앞서 AGGREGATE를 통해 계산한 정보를 포함시킨다.
READOUT : 모든 노드들의 은닉층을 결합한다 (integrate)
h_G : h_1^(K)에서 h_5^(K)까지의 정보를 결합한다.
→ READOUT을 통해 원자1의 표현벡터를 얻는다. (반복하여 정보 업데이트)
[The ChemRL-GEM Framework]
GeoGNN에 추가된 것은 Bond-Angle 그래프이다.
기존 GNN에서 Atom-Bond의 정보를 반영한 함수 G에 Bond-Angle의 정보를 반영한 함수 H가 추가된다.
노드와 엣지가 새롭게 정의된다.
결합(bond) : 노드(node)
결합각(bond-angle) : 엣지(edge)
GNN과 동일하게 AGGREGATE, COMBINE, READOUT 함수가 쓰인다.
함수 G와 H의 관계(?)는 다음과 같다.
1. 먼저 함수 H를 통해 이웃 Bond-Angle에서의 정보를 포함한 결합벡터를 얻는다.
2. 이 결합벡터가 함수 G에서 Atom-Bond의 특징으로 채택되어 원자의 표현벡터를 얻는다.
3. 마지막 iteration에 원자의 표현벡터를 모두 모은 h_G를 통해 분자의 특성을 예측할 수 있다.
[Experiment]
1. Pre-training Settings (사전 훈련)
데이터 : Zinc15로 부터 라벨이 정해지지 않은 20만개의 데이터 (Train : Evalutaiton = 9 : 1)
→ RDKit 4 패키지의 Merck 분자력장 함수를 활용하여 분자의 시뮬레이션된 3D 좌표를 얻습니다. 이를 통해 분자의 기하학적 특성인 결합 길이, 결합 각도 및 원자 간 거리 행렬을 계산합니다.
* RDKit 4패키지 : 오픈 소스 화학 정보학 도구 패키지로, 화학 정보에서 분자의 구조와 특성을 분석하고 다루는 데 사용됩니다
2. Molecular Property Prediction Settings
6개의 회귀 데이터와 6개의 분류 데이터로 총 12개의 벤치마크 데이터를 사용한다.
* Scaffold split : 화합물의 분자 구조를 고려하여 분할하는 방식이다. 모델이 한 분자 구조에서 학습한 정보를 다른 유사한 분자 구조에 대해서도 얼마나 잘 전이할 수 있는지 평가할 수 있기 때문에 랜덤하게 분할하는 것보다 효과적이다.
실험 결과 :
1. 분류 데이터 하개를 제외하고는 모든 부부넹서 ChemRL-GEM(GeoGNN)이 성능이 좋다는 결론을 알 수 있다.
2. 회귀에서 평균 8.8.%, 분류에서 평균 3.7%만큼 향상된 성능을 보여준다.
3. 결합각이라는 매개변수가 회귀모형에 더 적합하고, 분자의 기하정보와 더 관련된다고 볼 수 있다.
분류 모델에서 Clintox 데이터가 성능이 낮은데(빨간 네모), 이는 데이터가 매우 불균형하기 때문이다.
[Conclusion]
- Introducing a Atom-Bond graph on top of the Atom-Bond graph
기존의 GNN보다 ChemRL이 더 높은 성능을 보여준다. 즉, 결합된 원자들 사이의 각도 정보를 활용하여 더 정확한 분자 표현학습을 가능하게 하고, 분자의 공간적인 특징을 더 자세히 반영한다는 장점이 있다.
[Review]
1. Angle에 대한 정보(어떻게 얻고, 학습하는지)를 더 찾아봐야한다.
2. Aggregate/Combine/Readout 함수의 수식 연산에 대한 이해가 필요하다.