AI & Statistics Lab

2025/07/03 2

HyperCLOVA X THINK 리뷰

HyperCLOVA X THINK 개요 및 목표HyperCLOVA X THINK는 HyperCLOVA X 제품군의 첫 번째 추론 중심 대규모 언어 모델입니다. 이 모델은 두 가지 주요 목표를 가지고 개발되었습니다:고급 추론 능력: 사실적 지식 암기를 넘어 논리적 추론 및 다단계 문제 해결 능력을 제공합니다.주권 AI(Sovereign AI) 촉진: 한국어에 특화된 언어적 유창성과 문화적 민감도를 제공하며, 지역적 가치 및 규제에 부합하는 데이터 거버넌스를 목표로 합니다. 특히 한국을 중심 목표로 설정했습니다.이 모델은 약 6조 개의 고품질 한국어 및 영어 토큰으로 사전 학습되었으며, 표적 합성 한국어 데이터로 보강되었습니다. 또한 컴퓨팅-메모리 균형을 이루는 Peri-LN Transformer 아키텍처를..

Paper Review 2025.07.03

Hunyuan-A13B 리뷰

Hunyuan-A13B는 Tencent Hunyuan 팀이 개발한 오픈소스 대규모 언어 모델(LLM)로, Mixture-of-Experts (MoE) 아키텍처를 사용하여 계산 효율성과 모델 성능 간의 균형을 최적화한 것이 특징입니다. 이 모델은 복잡한 추론 능력과 효율적인 배포를 목표로 설계되었습니다.1. 주요 특징 및 아키텍처MoE 아키텍처: Hunyuan-A13B는 총 800억 개의 매개변수를 가지고 있지만, 추론 시에는 단 130억 개의 매개변수만 활성화됩니다. 이는 유사한 규모의 밀집 모델에 비해 추론 지연 시간과 계산 오버헤드를 상당히 줄이면서 최첨단 LLM에 필적하는 성능을 달성합니다.세부적으로는 1개의 공유 전문가(shared expert)와 64개의 세분화된 비공유 전문가(fine-grai..

Paper Review 2025.07.03