이 논문은 대규모 언어 모델(LLM)의 사전 훈련 과정에서 발생하는 천문학적인 계산 비용(8비트 가중치 하나당 10^13~10^15 FLOPs) 문제를 해결하고자 하는 강력한 동기에서 출발합니다. 기존에는 LLM의 기능을 확장하거나 특정 작업에 적응시키기 위해 경사 기반 미세 조정(gradient-based fine-tuning)이나 RLHF(Reinforcement Learning from Human Feedback)와 같은 방법들이 사용되었는데, 이들은 매우 효과적이지만 엄청난 계산 비용과 방대한 훈련 데이터를 요구합니다. 이 연구는 이러한 비용이 많이 드는 패러다임을 "Assembly-of-Experts" (AoE)라는 새로운 모델 구성 방법을 통해 혁신하고자 합니다. AoE는 부모 모델의 파라미터를 선택하거나 보간(interpolation)함으로써 새로운 자식 모델을 선형 시간(linear time) 내에 구축하는 경량화된 접근 방식입니다.
Assembly-of-Experts (AoE) 방법론의 상세 설명
AoE는 여러 부모 모델의 파라미터(가중치 텐서)를 병합하여 새로운 모델을 구성하는 방법입니다. 이 방법은 특히 MoE(Mixture-of-Experts) 아키텍처의 세밀한 구조를 활용합니다.
- 개별 가중치 텐서 보간:
- AoE는 모델의 가중치 텐서를 개별적으로 보간합니다. 이를 통해 부모 모델이 가진 의미론적 특징을 강화하거나 억제할 수 있습니다.
- 논문은 동일한 아키텍처를 공유하는 여러 부모 모델 $M^{(i)}$ ($i = 1, ..., n$)를 가정합니다. 이들로부터 병합될 모델 $M^{(*)}$의 텐서 $W^{(*)}_l$를 도출합니다.
- 모델 선택 및 가중치 부여:
- 병합할 텐서 하위 집합($\mathcal{S} ⊂ \mathcal{L}$)을 선택합니다. 이 집합은 모든 텐서를 포함할 수도 있고, 특정 유형의 텐서(예: 라우팅된 전문가(routed experts)만)를 포함할 수도 있습니다. 선택되지 않은 나머지 텐서는 기본 모델 $M^{(1)}$에서 가져옵니다.
- 각 부모 모델 $M^{(i)}$에는 가중치 계수($λ_i$)가 부여됩니다. 대부분의 경우, 볼록 조합(convex combination), 즉 $λ_i ≥ 0$ 이고 $∑λ_i = 1$을 만족하는 방식으로 가중 평균을 적용합니다.
- 임계값(Thresholding) 적용:
TIES-merging
방법에서 영감을 받아, AoE는 특정 임계값($δ ≥ 0$)을 초과하는 텐서들만 병합에 포함되도록 제한할 수 있습니다.- 이는 선택된 기준 모델 $M^{(1)}$과 다른 모델 $M^{(i)}$ 간의 정규화된 Frobenius 노름(norm) 차이가 $δ$를 초과하는 텐서에만 적용됩니다. 이는 모델 간의 "관련성 있는 차이(relevant differences)"에 병합을 집중시키기 위함이며, 중복되거나 불필요한 적응으로 인한 바람직하지 않은 영향을 피하는 데 도움이 됩니다.
- 병합 시나리오 (DeepSeek-V3-0324와 DeepSeek-R1의 예시):
논문은 $n=2$인 특정 예시, 즉 DeepSeek-V3-0324를 기본 모델 $M^{(1)}$으로, DeepSeek-R1을 $M^{(2)}$로 사용하여 세 가지 시나리오를 정의합니다.- 가중 평균 병합 (Weighted-Average Merging):
- DeepSeek-V3-0324($λ_1$)와 DeepSeek-R1($λ_2$)의 상대적 기여도를 $λ_1 + λ_2 = 1$인 가중치로 제어합니다.
- $λ_1 = λ_2 = 0.5$인 경우, 이는 표준 모델 병합(uniform averaging)과 동일합니다. $λ = (0, 1)$은 R1에서 모든 병합된 텐서를 가져오는 것이고, $λ = (1, 0)$은 V3-0324 기본 모델을 그대로 사용하는 것입니다.
- 임계값 적용 (Thresholding):
- 기준 모델과 특정 텐서 그룹(예: 어텐션 텐서, 라우팅된 전문가 텐서, 공유 전문가 텐서) 간의 정규화된 Frobenius 노름 차이 분포를 분석하여, $δ > 0$인 임계값을 넘어설 때만 텐서를 병합에 포함합니다.
- 논문은 임계값 변화에 따른 지능 점수와 추론 비용 변화를 분석하여, $δ=3$까지는 모델 성능이 안정적으로 유지되지만, 그 이상에서는 R1 라우팅 전문가의 사용이 줄어들면서 지능 점수가 감소함을 보여줍니다.
- 전문가 대 전체 병합 (Expert vs. Full Merging):
- MoE 아키텍처의 미세한 전문가 하위 구조를 활용하여 다양한 병합 전략을 탐색합니다.
- 전체 병합(Full-merging): 모든 텐서($\mathcal{S} := \mathcal{L}$)가 병합에 포함됩니다.
- 전문가 병합(Expert-merging): 라우팅된 전문가 블록의 텐서만 병합되며, 게이팅 텐서는 제외됩니다. 실험 결과, 라우팅된 전문가 텐서만 병합하는 것이 추론 비용을 획기적으로 줄여주는 것으로 나타났습니다.
- 가중 평균 병합 (Weighted-Average Merging):
- 구현 상세:
- 이 병합 방법은 PyTorch를 사용하여 구현되었습니다.
- DeepSeek-V3 모델 계열의 6,710억 개 모델 파라미터는
.safetensors
형식으로 저장된 모델 가중치 파일을 직접 파싱하여 접근합니다. - 총 91,991개의 텐서 객체를 순차적으로 반복하여 병합 절차를 수행합니다.
실험 설정 및 평가 지표
- 하드웨어: 8xNVIDIA H100 94GB NVL 클러스터와 8xAMD MI325X 256GB 클러스터에서 실험이 진행되었으며, vLLM 추론 엔진이 사용되었습니다.
- 벤치마크: 병합된 모델의 품질을 검증하기 위해 주로 MT-Bench와 AIME-2024를 사용했습니다. DeepSeek-R1T-Chimera 모델은 추가적으로 코딩 벤치마크인 BigCodeBench로도 평가되었습니다.
- 추론 여부 지표: 모델이 추론(reasoning)을 하는지 여부를 분류하기 위해, 모델 답변이
<think>
토큰으로 시작하는지 여부를 확인하고,<think>
토큰이 포함된 답변의 빈도를 측정했습니다. R1과 R1-Zero 모델은 이 빈도가 1인 반면, V3와 V3-0324는 0입니다.
주요 결과 및 발견
- 모델의 기능성 및 견고성:
- AoE 방법으로 생성된 거의 모든 모델은 기능적이고 유능했습니다. 성능이 저조하거나 손상된 모델은 발견되지 않아, 모델 공간 탐색이 매우 용이하다는 것을 보여줍니다.
- 이는
DeepSeek-V3
,V3-0324
,R1
및 관련 미세 조정 모델들이 "공유 손실 계곡(shared loss valley)"을 차지하고 있다는 가설을 뒷받침합니다. 이 계곡 내에서 보간된 모델은 성능 저하 없이 바람직한 특성을 유지하거나 재조합할 수 있습니다.
- 속성의 점진적 변화 및 급격한 출현:
- 병합된 모델의 일부 속성(예: 일반 지능 점수)은 DeepSeek-R1의 기여도에 따라 점진적으로 변화했습니다.
- 그러나
<think>
태그의 출현과 같은 다른 행동 특성은 특정 임계값(R1 기여도 약 0.504 이상)에서 급격하게 나타났습니다. 이 임계값을 넘어서면 병합된 모델이 R1의 추론 방식인<think>...</think>
구조를 사용하여 추론 결과를 생성하기 시작합니다.
- DeepSeek-R1T-Chimera 모델:
- 구성: DeepSeek V3-0324와 R1을 결합하여 생성되었으며, 특히 R1의 라우팅된 전문가 텐서(routed expert tensors)만을 상속받고, 나머지 텐서는 V3-0324에서 가져왔습니다. 이는 DeepSeek-R1의 향상된 추론 능력에 라우팅된 전문가 텐서가 핵심적인 역할을 하며, V3-0324의 나머지 텐서가 성능 저하 없이 이러한 추론 구성 요소를 조정하거나 인터페이스하기에 충분하다는 가설을 뒷받침합니다.
- 성능:
R1
수준의 지능을 달성하면서도 출력 토큰을 약 40% 적게 사용하여 V3의 속도에 근접했습니다. 이는 지능 손실이 거의 없이 장황함(verbosity)을 크게 줄인 것입니다. - 추론 효율성: Chimera는 부모 모델에 비해 놀랍도록 간결하고 정돈된 추론을 보여주어, 추론 효율성이 향상되었음을 나타냅니다.
- 배포 및 활용:
R1
을 대체할 수 있으며, 내부 GPU 클러스터에 배포되었고 Hugging Face에 오픈 소스로 공개되었습니다. 2025년 5월 말까지 Chutes 서버리스 AI 플랫폼을 통해 하루에 약 50억 토큰을 처리하는 등 실제 활용도 또한 높았습니다.
결론 및 시사점
이 연구는 6,710억 파라미터에 달하는 매우 큰 언어 모델(MoE 아키텍처 기반)을 성공적으로 병합한 최초의 시도이며, DeepSeek-V3-0324
의 답변 스타일과 DeepSeek-R1
의 추론 능력을 결합하여 DeepSeek-R1T-Chimera 모델을 생성했습니다. 이 모델은 향상된 추론 효율성을 유지하면서도 강력한 성능을 보여주었습니다.
논문은 이러한 모델 어셈블리 기술이 미래의 DeepSeek-V3-MoE
아키텍처의 미세 조정 변형에 적용되어 더욱 효율적인 추론 모델을 구축하고 다른 바람직한 특성을 결합하는 데 활용될 수 있다고 강조합니다. 이는 기존의 고비용 미세 조정 패러다임을 벗어나, 선형 시간 내에 새로운, 유능한 LLM 변형을 생성할 수 있는 새로운 가능성을 제시합니다.
'Paper Review' 카테고리의 다른 글
Google Gemini 모델 논문 리뷰 (0) | 2025.07.06 |
---|---|
"Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources" 논문 리뷰 (0) | 2025.07.06 |
"Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search" 논문 리뷰 (0) | 2025.07.06 |
SpeechSSM 논문 리뷰 (1) | 2025.07.06 |
"Self-Adapting Language Models (SEAL)" 논문 리뷰 (0) | 2025.07.04 |