주요 LLM 모델 비교 및 한국어 특화 LLM 제안
주요 LLM 모델 개요
각각의 최신 대형 언어 모델(LLM)에 대해 아키텍처, 훈련 데이터, 훈련 기법 등의 핵심 정보를 정리합니다. 또한 초기 버전부터 최신 버전까지의 발전도 함께 언급합니다.
OpenAI GPT 시리즈 (GPT-3, GPT-3.5, GPT-4 등)
- 모델 아키텍처: GPT 시리즈는 Transformer 디코더 기반의 언어 모델로, GPT-2의 아키텍처를 확장하여 GPT-3에서는 1750억 개 파라미터까지 규모를 키웠습니다. GPT-3의 경우 96개의 어텐션 레이어로 구성되며, 토큰 임베딩 크기 12288, 어텐션 헤드 96개 등의 설정을 사용한 것으로 알려져 있습니다. 컨텍스트 윈도우는 GPT-3에서 2048 토큰이었고, GPT-4에서는 맥스 8192~32768 토큰으로 크게 확장되었습니다. GPT-4의 내부 구조는 공개되지 않았으나, Transformer 기반의 Mixture-of-Experts 구조나 멀티모달 입력 지원 등이 도입된 것으로 추측됩니다 (예: 이미지 입력 가능). GPT-4는 시각 정보를 처리하기 위해 이미지 인코더와 텍스트 디코더의 결합 구조를 사용하여 멀티모달 능력을 제공합니다.
- 훈련 데이터셋 및 언어 비중: GPT-3는 Common Crawl 웹텍스트, 서적, 위키피디아 등 방대한 영문 텍스트 코퍼스로 사전학습되었으며, 약 92.65% 의 토큰이 영어 데이터이고 나머지 7.35% 만 기타 언어인 것으로 추정됩니다. 사실상 영어 위주의 데이터 구성으로 한국어 등 비영어권 언어 비중은 매우 낮습니다. GPT-4는 GPT-3보다 더욱 다양한 데이터로 학습되었으나, 여전히 영어 중심이고 코드 및 이미지 데이터도 포함된 것으로 알려졌습니다. GPT-4 Technical Report에 따르면 GPT-4도 사전학습 데이터에 일부 타 언어를 포함하지만 영어 성능 대비 한국어 등의 성능은 다소 낮게 나타났습니다.
- 훈련 기법 및 최적화: GPT-3까지는 지도 학습(다음 토큰 예측)으로 사전학습되었고, GPT-3.5/ChatGPT부터 지도 미세튜닝(InstructGPT 기법) 과 인간 피드백 강화학습(RLHF) 이 적용되었습니다. RLHF를 통해 사용자 지시를 잘 따르고 유해 출력을 억제하도록 조정되었습니다. GPT-4 역시 대규모 사전학습 후 RLHF 단계를 거쳐 도움답변/해로움 감소에 초점을 맞추었으며, OpenAI 내부 평가와 전문가 피드백을 활용해 정교하게 모델을 개선했습니다. 최적화 알고리즘으로는 Adam 변형 등이 사용되고, 혼합 정밀도 훈련(FP16/BF16)과 모델 병렬화로 대규모 모델을 효율적으로 학습했습니다.
- 기타 특이사항: GPT-4는 멀티모달 지원이 가능한 점이 큰 특징입니다 (이미지 입력을 이해하고 응답 생성). 다만 GPT-4의 이미지 이해는 제한적으로 공개 서비스에 적용되었습니다. 추론 속도는 모델 크기가 매우 큰 GPT-4의 경우 느리지만, OpenAI는 최적화된 GPU 배포로 실제 응답 시간을 줄였습니다. 파인튜닝 가능성은 GPT-3 때 일부 API 모델에 한해 사용자 커스텀 파인튜닝을 제공한 바 있으나, GPT-4는 사전학습 가중치가 비공개라 외부 파인튜닝은 불가능합니다. GPT 시리즈는 폐쇄형 상용 모델로서 연구자에게 가중치가 공개되지 않았고, 주로 API로 활용됩니다.
Google DeepMind Gemini
- 모델 아키텍처: Gemini는 Google DeepMind가 개발한 최신 세대 LLM으로, 처음부터 멀티모달 처리를 염두에 두고 만들어졌습니다. 텍스트, 코드, 이미지, 오디오, 비디오까지 다양한 입력을 통합적으로 이해할 수 있도록 설계된 Transformer 기반 하이브리드 구조입니다. 아키텍처는 텍스트 디코더에 별도 비전 인코더를 결합한 형태로, DeepMind의 Flamingo, PaLI, CoCa 등의 연구를 계승하여 텍스트와 이미지 처리를 분리 후 결합하는 방식을 채택했습니다. Gemini 1.0은 세 가지 크기(Ultra, Pro, Nano)로 제공되며, Ultra는 추정상 GPT-4 규모 이상의 거대 모델, Pro는 중간 크기, Nano는 모바일/온디바이스용 소형 모델입니다. Ultra 모델의 파라미터 수는 정확히 공개되진 않았으나, Google이 초거대 TPUv4 팜에서 몇 주간 학습시켰다고 밝힌 만큼 수천억 ~ 1조 개에 이를 것으로 추측됩니다. Nano는 18억 ~ 32억 규모(1.8B/3.25B)로 경량화되어 장치에서 동작하며, 상위 모델을 지식증류(distillation) 한 결과입니다.
- 훈련 데이터셋 및 언어 비중: Gemini는 웹 문서, 도서, 코드, 이미지/동영상, 오디오 등 광범위한 멀티모달 데이터셋으로 학습되었습니다. 또한 다국어 데이터도 대량 포함하여, SentencePiece 토크나이저를 통해 비라틴 문자까지 효율적으로 처리합니다. 공식 발표에 따르면 다양한 언어의 웹 데이터를 샘플링하여 멀티링귀얼 학습을 했으며, 한국어도 포함된 20~30여 개 언어 데이터를 사용했습니다. 정확한 언어별 비중은 공개되지 않았으나, 영어와 중국어 등 고자원 언어 비중이 높고 한국어 등도 일정량 포함된 초거대 멀티언어 코퍼스입니다.
- 훈련 기법 및 최적화 전략: Gemini는 멀티모달 사전학습을 거친 후 추가로 각 모달별 데이터로 파인튜닝을 진행했습니다. 또한 인간 피드백을 통한 강화학습(RLHF)도 적용된 것으로 알려졌으며, Google 내부 테스트 사용자로부터 thumb-up/down 피드백을 수집하여 모델 응답을 개선하는 온라인 RLHF 과정도 일부 활용하고 있습니다. AlphaGo 등에서 축적된 DeepMind의 강화학습 노하우를 활용해, 체계적 추론 능력을 강화하는 훈련(예: 프롬프트 연쇄(prompt chaining), Tree-of-Thoughts 등)이 도입되었다는 언급이 있습니다. 최적화 측면에서는 TPU v4/v5 대규모 분산 학습, JAX/Pathways 프레임워크, Silent Data Corruption 대응 등 초대형 분산학습 인프라 최적화 기술을 적용해 안정적으로 학습을 완료했습니다.
- 기타 특이사항: Gemini Ultra 모델은 최첨단 수준의 성능을 보여주며, 특히 멀티모달 이해 및 추론에서 GPT-4를 앞서는 결과를 달성했습니다 (예: MMLU 90.0%로 최초로 인간 전문가 능가). 이미지 이해에서도 OCR 없이 GPT-4V를 능가하는 성과를 보였고, 비디오 이해와 오디오 인식 능력까지 통합했습니다. Gemini는 128K 이상의 긴 문맥에서도 추론 가능하며, 실시간 정보 접근이나 툴 사용에 용이한 아키텍처를 갖추고 있다고 합니다. 향후 업데이트로 멀티모달 생성(예: 이미지 생성 출력) 능력도 추가 예정입니다. Gemini는 Google의 서비스(Bard 등) 및 클라우드 API로 제공되며, 비공개 상용 모델이지만, 이를 기반으로 한 경량 오픈모델(Gemma 시리즈)이 공개되어 있습니다.
Google Gemma (오픈 LLM 패밀리)
- 모델 아키텍처: Gemma는 Google DeepMind가 Gemini 연구 기술을 바탕으로 공개한 오픈 가중치 LLM 패밀리입니다. 주로 경량 모델 위주로 구성되어 있으며, Transformer 디코더 기반의 표준 구조를 따릅니다. Gemma 1 세대는 20억(2B)과 70억(7B) 파라미터 모델로 시작했고, 이후 Gemma 2 세대(2B, 9B, 27B)는 개선된 구조와 대용량 학습으로 성능을 높였습니다. Gemma 2 중 2B와 9B 모델은 더 큰 모델로부터 지식 증류(distillation) 를 통해 효율적으로 학습되었습니다. Gemma 3 세대에서는 멀티모달 지원이 추가되어, PaliGemma (3B) 라는 텍스트+이미지 입력이 가능한 비전-랭귀지 모델도 등장했습니다. 또한 RecurrentGemma라는 변형을 통해 Griffin 아키텍처(로컬 어텐션+선형 재발산 구조)로 긴 시퀀스에 빠르게 대응하는 실험도 진행했습니다. 전반적으로 Gemma는 Multi-Query Attention (MQA) 등의 효율화 기법이 도입되어 메모리와 속도를 최적화한 것이 특징입니다.
- 훈련 데이터셋 및 언어 비중: Gemma는 주로 영어 텍스트 데이터로 훈련되었습니다. 7B 모델 기준 약 6조 토큰 규모의 텍스트로 사전학습되었으며, 웹 문서, 수학, 코드 데이터 등이 포함되었습니다. 멀티모달 지원이 없는 텍스트 전용 모델로서, Gemini와 달리 다중 언어/다중 모달 SOTA 성능을 목표로 하지 않고 영어 중심 일반 능력에 중점을 두었습니다. 따라서 학습 코퍼스의 대부분이 영어이며, 타 언어 비중은 낮습니다 (Gemma팀은 Gemini와 달리 Gemma에서는 멀티링귀얼 SOTA를 추구하지 않았다고 명시). 한국어 데이터는 소량 포함될 수 있으나, 모델이 한국어에 특화되지는 않았습니다. 토크나이저는 Gemini와 동일한 SentencePiece 기반 25만6천 vocab을 사용하여 여러 언어 호환성을 확보했으나, 실제 학습은 영어에 편중되었습니다.
- 훈련 기법 및 최적화: Gemma 모델들은 대용량 사전학습 후 지도형식의 인스트럭션 튜닝(SFT) 및 RLHF를 거쳐 대화형으로 최적화되었습니다. 공개된 테크니컬 리포트에 따르면, Gemma 2B/7B에 대해 영어로 된 인간/모델 생성 프롬프트-응답 쌍을 대량으로 활용해 지도 미세튜닝을 했고, 추가로 인간 선호도 데이터에 기반한 보상모델과 REINFORCE 알고리즘을 활용해 정책 경사 RLHF 파인튜닝을 수행했습니다. 특히 헌법 AI 아이디어도 차용하여, AI 자체 평가 및 수정(LM을 이용한 응답 비교 평가, 헛소리/유해 답변 필터링 등)을 도입함으로써 인간 개입을 줄이는 시도를 했습니다. 최종적으로 대화 적합성, 무해성, 사실성을 개선하는 혼합 데이터(체인-of-thought 연쇄 추론, 거짓말 억제 “헌법”, 거부/주저 예시 등)를 포함해 튜닝을 했다고 보고되었습니다. 최적화는 TPU 기반 대규모 병렬 학습, BF16 정밀도 등의 기술로 수행되었고, 8192 토큰 길이로 학습하여 긴 문맥도 처리 가능하게 하였습니다.
- 기타 특이사항: Gemma 시리즈는 오픈소스로 가중치와 학습 코드가 공개되었으며(라이선스에 따라 자유 이용 가능), 연구 목적의 활용이 용이합니다. 7B Gemma는 동급 공개 모델 중 최고 수준의 언어 이해/추론 성능을 보여주며, 많은 벤치마크에서 동일 규모의 LLaMA2나 Mistral 등을 능가했습니다. 다만 멀티모달이나 다국어 능력은 제한적입니다. Gemma 3에서는 비전-랭귀지 모델(PaliGemma) 을 통해 한정된 이미지+텍스트 입력 대응이 가능하고, RecurrentGemma를 통해 긴 문서 빠른 생성 가능성을 탐색하는 등 새로운 구조 실험도 진행 중입니다. 전체적으로 Gemma는 경량이면서 효율적인 아키텍처 설계(예: MQA, 저비용 추론)을 강조하여, 개발자들이 쉽게 활용하고 확장할 수 있도록 한 점이 특징입니다.
Anthropic Claude (Claude 1, Claude 2)
- 모델 아키텍처: Claude는 Anthropic이 개발한 LLM 시리즈로, 기본적으로 Transformer 디코더 아키텍처를 사용합니다. Claude 1은 약 520억 개 파라미터(추정치)로 2023년 초 출시되었으며, Claude 2는 1000억 개 내외(공식 비공개)로 규모를 확대한 최신 모델입니다. 특히 Claude 2는 컨텍스트 길이를 100k 토큰까지 크게 확장한 점이 특징인데, 이는 특수한 긴 문맥 최적화 기법(예: 위치 임베딩 스케일 조정, 내부 요약(Scratchpad) 등)을 통해 구현되었습니다. Anthropic은 Claude 모델에 대해 “GPT-3.5 수준의 구조를 점진 개선한 연속적 진화”라고 밝히고 있으며, 계층적 정규화나 상대적 위치 인코딩 등 최신 기법이 적용된 것으로 보입니다. 또한 모델 투명성을 위해 Claude는 비교적 해석 가능성을 높이는 방향으로 실험되고 있습니다 (예: 특정 지식 모듈 등은 미공개 연구).
- 훈련 데이터셋 및 언어 비중: Claude 시리즈는 인터넷의 공개 텍스트, 라이선스 받은 서적/문서, Anthropic이 수집한 대화 데이터 등 복합 데이터셋으로 학습되었습니다. Claude 2의 경우 훈련 데이터 컷오프가 2023년 초이며, 약 10% 정도가 영어 외 언어 데이터로 구성되어 있습니다. 즉 약 90%는 영어이며, 나머지에 다양한 언어 (프랑스어, 스페인어, 중국어 등)가 조금씩 포함되어 있는 정도입니다. 한국어 데이터도 일부 포함되었으나, 모델이 한국어를 영어만큼 유창하게 이해하도록 충분히 학습된 것은 아닙니다. 대신 Anthropic은 다국어 평가를 통해 Claude가 일부 다국어 능력은 갖추었지만 저자원 언어에서는 성능이 저하됨을 인정했습니다. (Anthropic 모델카드 언급 참고).
- 훈련 기법 및 최적화: Claude의 가장 큰 특징은 “Constitutional AI” 로 불리는 자체 피드백을 통한 모델 align 기법입니다. 초기에는 OpenAI와 마찬가지로 RLHF를 사용했으나, Anthropic은 AI가 스스로 작성한 헌법(원칙) 조항에 따라 응답을 평가/개선하게 함으로써 인간의 유해성 피드백 의존을 줄였습니다. 절차상, 먼저 헌법에 기반한 SFT를 거쳐 모델을 일정 수준 유해하지 않게 만들고, 이후 강화학습(RL) 단계에서도 헌법 원칙을 참고하여 모델이 둘 중 더 헌법에 부합하는 응답을 선택하도록 훈련했습니다. 이로써 Claude는 높은 수준의 안전성과 일관성을 확보했다고 주장됩니다. 또한 Anthropic은 광범위한 Red Teaming(적대적 시나리오 테스트) 과 모델 자기평가를 통해 위험한 능력을 억제했습니다. 최적화 면에서는, Claude 2에서 고효율 어텐션 구현과 분산 메모리 관리를 통해 100k 토큰 문맥을 실현했고, inference 시에 동적 시분할 기법으로 긴 입력을 슬라이딩 처리하는 등 실용적인 해법을 적용했습니다.
- 기타 특이사항: Claude 2는 최대 100,000토큰(약 75,000단어)의 맥락을 한꺼번에 처리할 수 있어, 장편 소설이나 긴 기술문서를 통째로 분석할 수 있다는 점을 강조합니다. 이 능력은 다른 경쟁 모델 대비 두드러진 강점으로, 실제로 방대한 분량의 입력을 요약/분석하거나 법률 서류 검토 등에 활용되고 있습니다. 또한 Claude는 높은 수준의 글쓰기, 코딩 능력을 가져 Slack 등의 제품에 통합되었고, 만든 답변의 정확성/솔직함(Honesty) 향상을 목표로 하고 있습니다. 추론 속도의 경우 Claude 2는 입력이 매우 긴 경우 답변 시간이 길어지지만, 일반 대화에서는 GPT-4 대비 다소 빠른 응답성을 보이는 것으로 알려졌습니다. 파인튜닝 가능성에 대해 Anthropic은 외부에 가중치를 공개하지 않으며, Claude를 API로만 제공하고 있어 사용자가 별도로 파인튜닝할 수 없습니다. 대신 Anthropic이 자체적으로 Claude Instant(경량판)와 Claude 2 등을 지속 개선하여 제공하는 형태입니다.
xAI Grok
- 모델 아키텍처: Grok은 일론 머스크가 설립한 xAI에서 공개한 LLM입니다. Grok-1 버전은 Mixture-of-Experts(MoE) 방식을 활용한 것으로, 총 3,140억 개 파라미터로 이루어져 있고 이 중 매 토큰 예측 시 약 25% (785억 파라미터) 만 활성화되는 스파스 구조입니다. 이는 8개 전문가 중 2개 전문가를 활성화하는 형태로 구현되었고, 나머지 전문가 가중치는 비활성화되어 효율을 높입니다. Grok-1은 2023년 10월 사전학습을 완료하였고, 2024년 3월 Apache 2.0 오픈소스로 가중치와 아키텍처가 공개되었습니다. 이후 xAI는 Grok-2, Grok-3으로 모델을 진화시켰으며, Grok-3 시점에서는 컨텍스트 길이를 128k 토큰까지 확장하고 성능을 향상시켰습니다. 기본 아키텍처는 GPT 계열과 유사한 Transformer이지만, MoE 레이어를 다수 포함하고 있어 파라미터 효율 대비 모델 용량을 극대화합니다. (예: Grok-3도 Grok-1과 유사한 3,140억 매개변수를 유지하며, 병렬 전문가 수나 구조를 최적화한 것으로 보임.)
- 훈련 데이터셋 및 언어 비중: Grok은 공개 인터넷 텍스트 데이터 + X(구 트위터) 플랫폼 데이터를 대규모로 사용해 훈련되었습니다. 최신 Grok-3 기준 약 12.8조 토큰으로 학습을 했으며, 여기에는 영문 웹자료뿐 아니라 X에서 수집된 실시간 게시글, 사용자 프로필, 심지어 법원 자료 등 다양한 도메인의 데이터가 포함되었습니다. X 플랫폼의 특성상 영어가 주류지만 다수의 사용자 생성 한글 트윗 등도 데이터에 혼재되어 있을 가능성이 있습니다. 다만 Grok이 한국어에 특별히 최적화되었다기보다는, X 데이터 기반으로 구어체, 인터넷 밈, 속어 등을 학습하여 특유의 유머러스하고 직설적인 어조를 갖춘 점이 두드러집니다. (Musk는 Grok이 “거의 뭐든 대답하며 약간 장난기 있게 답한다”고 소개함.) 언어적으로는 영어에 가장 능통하지만, 훈련 데이터에 포함된 범위 내에서 한국어 질의에도 답변이 가능할 것입니다.
- 훈련 기법 및 최적화: Grok 개발진은 OpenAI GPT-4 논문 등을 참고하여 모델을 초기부터 대형으로 설계한 뒤 학습시켰습니다. 사전학습 단계에서 자체 구축한 JAX+Rust 기반 분산 학습 스택을 사용하여 MoE 구조의 효율을 극대화했습니다. 또한 학습 중간에 새로운 데이터(예: 최신 X 트렌드) 를 계속 반영하는 컨티뉴얼 러닝을 실시하여, 모델이 최신 정보를 빠르게 습득하도록 했습니다. 파인튜닝 단계에서는 RLHF를 적용하여, 사용자 질문에 실시간 정보 활용이나 농담 등의 창의적 답변도 가능하도록 조정했습니다. 특히 X 플랫폼에서 사용자 피드백(예: 좋아요/리트윗)을 간접적인 보상 신호로 삼는 등 웹 상의 반응을 활용한 학습도 실험한 것으로 알려졌습니다. 최적화 면에서는, MoE 특성상 모델 병렬화가 복잡하지만 xAI가 이를 위해 TPU Pod 등을 활용하고, 토크나이저는 16만개 이상 대형 vocab으로 멀티랭 지원을 개선했습니다 (영어+이모지+한글 포함).
- 기타 특이사항: Grok의 가장 큰 특징 중 하나는 X와의 실시간 통합입니다. X 프리미엄 사용자는 X 인터페이스에서 Grok에게 직접 질문할 수 있고, Grok은 실시간 X 게시물과 인터넷 지식을 종합하여 답변합니다. 예를 들어 최신 뉴스나 주가 정보도 Grok이 제공할 수 있으며, 이는 정적인 지식 cutoff가 있는 다른 모델들과 차별화됩니다. 또한 Grok은 128K 토큰 긴 문맥을 처리하여 장문의 글도 한 번에 검토 가능하고, 추론 속도도 동급 모델 대비 25% 빠르다고 홍보됩니다. 다만 멀티모달 입력은 아직 지원하지 않고 텍스트 기반 대화에 집중되어 있으나, 향후 이미지 생성/분석 등의 멀티모달 기능도 업데이트될 예정입니다. Grok은 xAI 웹 인터페이스와 X 플랫폼에서 사용 가능하며, 기업용 API도 곧 제공될 계획입니다. 오픈소스로 공개된 Grok-1 베이스를 바탕으로 커뮤니티 파생 모델들이 등장할 여지도 있습니다.
Meta LLaMA 시리즈 (LLaMA 1, LLaMA 2 등)
- 모델 아키텍처: LLaMA는 Meta AI가 2023년에 공개한 일련의 오픈소스 LLM입니다. LLaMA 1세대는 70억, 130억, 330억, 650억 파라미터 버전으로 제공되었고, 표준 Transformer 디코더 구조를 사용했습니다. LLaMA-2(2023.7 공개)는 동일한 파라미터 규모로 후속 출시되었으며, RoPE (Rotary Positional Encoding), SwiGLU 활성함수, RMSNorm 정규화 등 최신 기법을 도입하여 성능과 안정성을 높였습니다. 특히 LLaMA-2의 70B 모델에는 Grouped Query Attention (GQA) 를 적용하여 메모리 사용량을 최적화했습니다. 기본적으로 LLaMA는 GPT-3와 유사한 디코더이지만, 학습 효율을 위해 상대적 위치인코딩과 고효율 구현을 활용해 적은 자원으로도 우수한 성능을 내는 것이 목표였습니다. 맥락 길이는 LLaMA-1/2 모두 4,096토큰이 기본이지만, 이후 커뮤니티 개조판을 통해 8K, 16K 심지어 128K까지 늘린 버전들도 등장했습니다 (RoPE 스케일 조정 등 기법으로).
- 훈련 데이터셋 및 언어 비중: LLaMA-1은 약 1조 tokens, LLaMA-2는 2조 tokens 분량의 텍스트 데이터로 사전훈련되었습니다. 데이터에는 인터넷 웹크롤링 (CommonCrawl), C4 코퍼스, GitHub 코드, 위키피디아(다국어), 수백권의 서적(BooKCorpus 등) 이 포함되었습니다. 언어 비중을 보면, LLaMA-2의 경우 약 89.7%가 영어 데이터이고, 그 외 나머지 10% 남짓에 다른 언어들이 포함되었습니다. (예: 코드 8%, 중국어 0.13%, 기타 언어 합계 수%.) 따라서 한국어의 비중은 극히 적어 1% 미만 수준으로 추정됩니다. 실제로 LLaMA 논문에서도 영어 위주의 학습으로 인해 영어 외 언어 성능은 제한적임을 언급하고 있습니다. 다만 위키피디아 등의 데이터에 한글이 일정 포함되었고, LLaMA-2 출시 시 공개된 다국어 평가에서 한국어도 (번역형태로) 어느 정도 수행 가능함이 확인되었습니다.
- 훈련 기법 및 최적화: LLaMA-2는 3단계 학습 루프를 거쳤습니다: ① 방대한 비지도 사전훈련(베이스 모델) → ② 대규모 지도 데이터로 SFT(대화용 챗 모델) → ③ 인간 피드백 강화학습(RLHF) 를 통한 Aligned 모델 생성. 이 과정은 OpenAI InstructGPT 절차를 따온 것으로, Meta는 자체 인스트럭션 데이터와 공개된 인간 피드백 데이터(HH-RLHF 등)를 활용했습니다. RLHF에는 PPO (Proximal Policy Optimization) 알고리즘과 거부 샘플링(Rejection sampling) 기법을 활용해, 모델이 최대한 유용하고 무해한 답변을 생성하도록 조율했습니다. 최적화 측면에서는, Meta가 FSDP 등 분산학습 기법과 NVIDIA GPU 클러스터를 사용하여 비교적 적은 GPU(수백 장 규모)로 LLaMA-2 70B를 훈련시켰다고 밝힌 바 있습니다. 또한 LLaMA 계열은 INT8, INT4 양자화에 대한 연구가 활발하여, 추론 시 8-bit/4-bit 저정밀도로도 성능을 유지할 수 있게 최적화되었습니다.
- 기타 특이사항: LLaMA 시리즈의 강점은 오픈소스 가중치 공개로, 연구자들이 자유롭게 모델을 파인튜닝 및 수정할 수 있다는 점입니다. 실제로 LLaMA 공개 이후 Alpaca, Vicuna 등 수많은 파인튜닝된 변형들이 등장하여 LLM 연구를 가속했습니다. 추론 속도는 동급 파라미터 모델 대비 최적화가 잘 되어 있어 7B 모델은 소비자 GPU에서도 수 초 내 응답 생성이 가능하고, 70B 모델도 고성능 GPU로 실시간 대화가 가능했습니다. LLaMA-2 Chat은 상업적 이용까지 허용되는 라이선스로 공개되어 기업들도 활용할 수 있습니다. 다만 멀티모달 지원이 없고 영어 편향 성능이라서, 이미지 입력이나 한국어 같은 언어에 대한 성능은 제한적입니다. 이후 Meta는 Llama-3 개발도 암시하고 있으며, 맥락확장(16K+), 멀티모달, 성능 향상 등이 예상됩니다. (일부 보도에서는 Meta가 2024년에 수백억~1조급 LLM을 준비 중이라고 언급함.)
Alibaba Cloud Qwen (通义千问 시리즈)
- 모델 아키텍처: Qwen(Qianwen) 은 알리바바 클라우드가 공개한 대규모 모델 시리즈로, 2023년 8월 첫 공개되었습니다. Qwen-7B, 14B에 이어 Qwen-72B 모델까지 공개되었으며, 모두 Transformer 디코더 기반입니다. 아키텍처상 LLaMA와 유사하지만, Multi-Query Attention (MQA) 을 적용하고 토큰 임베딩 차원 확장 등 효율화가 이루어졌습니다. 특히 Qwen-72B는 32K 문맥길이를 지원하며, 이는 RoPE 기반 위치인코딩을 재학습시키고 Continual Pretraining으로 얻은 결과입니다. 또한 Qwen은 151,851개에 이르는 대용량 Vocabulary를 사용하여, 중국어와 영어, 코드 토큰까지 효율적으로 표현합니다. (중국어 문자셋을 충분히 커버하기 위해 Byte-Pair 아닌 SentencePiece 기반의 큰 사전 활용.) Qwen-2.5 세대에서는 Mixture-of-Experts 구조를 도입한 Qwen-2.5-Max 모델도 소개되었는데, 이는 20개 전문가로 구성된 초대형 MoE로 수십억~수백억 활성 파라미터를 갖는 실험적 모델입니다 (현재 API로 제공).
- 훈련 데이터셋 및 언어 비중: Qwen은 다중 언어 및 다분야 텍스트로 학습되었습니다. 영어와 중국어 데이터를 중심으로, 총 2~3조 토큰 규모의 코퍼스를 사용했습니다. 공개 문서에 따르면 Qwen의 사전학습 데이터는 약 30개 언어를 포함하며, 본질적으로 Qwen은 영중 이외에도 다언어 지원을 목표로 합니다. 다만 “영어와 중국어에 강점을 두고 다른 언어도 가능” 한 수준으로, 실제 학습에서 영어/중국어 비중이 가장 높습니다. 예를 들어 Qwen-7B 모델 카드에는 "영어와 중국어에 특히 강하고, 스페인어/프랑스어/일본어 등도 가능"이라고 언급되어 있습니다. 한국어도 지원 언어 목록에 포함되어 있으며, Qwen-2.5에서는 한국어를 포함한 29개+ 언어를 공식 지원한다고 명시되었습니다. 즉, Qwen은 한국어 관련 데이터(예: 중국어 위키의 한국어판, 한중/한영 번역 데이터 등)를 학습하여 멀티링구얼 모델로 동작합니다. 한국어 능력은 공개 평가에서 GPT-3.5보다 우수하고 LLaMA2와 유사하거나 상회하는 것으로 보고되었습니다.
- 훈련 기법 및 최적화: Qwen 시리즈는 단계적 학습을 거쳤습니다. 우선 거대 코퍼스로 사전학습(next-token 예측)을 충분히 수행한 뒤, 지도형 피드백 튜닝(SFT) 과 인간 선호도 최적화(RLHF) 를 적용했습니다. 알리바바는 고품질 지시-응답 데이터를 다양하게 만들어 SFT를 진행하고, 상벌 강화학습을 통해 답변의 유용성과 안전성을 높였다고 합니다. 특히 보상모델을 학습시켜 모델 출력을 랭킹하고, PPO 알고리즘으로 정책을 미세조정했습니다. 또한 대화형 능력 외에도, 코드에 특화된 Code-Qwen, 수학문제 특화 Math-Qwen 등의 도메인별 추가 튜닝도 병행했습니다. 한편 Qwen-2.5부터는 초대량 데이터(20조 토큰) 로 재학습하여 스케일 업을 시도했고, 모델 병렬화/파이프라이닝 최적화로 수천 TPUV4 판으로 몇 주 내 학습을 완료했다고 합니다. Qwen은 공개 이후 커뮤니티 툴(Axolotl 등) 로 파인튜닝도 용이하게 할 수 있도록 지원되어 있습니다.
- 기타 특이사항: Qwen은 오픈소스로 1.8B~72B 모델 가중치를 모두 Apache 2.0 라이선스로 공개하여 주목받았습니다. Qwen-72B는 공개된 모델 중 최상위 성능으로, LLaMA2-70B를 대부분의 벤치마크에서 능가하며 GPT-3.5 대비 상당 부분 우위에 있음이 확인되었습니다. 또한 32K 길이 컨텍스트 지원을 통해 장문 입력 처리가 가능하고, 툴 사용/에이전트 기능을 강화하여 외부 계산, 검색, 코드해석 등을 수행할 수 있습니다. Qwen-2.5에는 멀티모달 확장판(Qwen-2.5 Omni) 이 발표되어, 이미지/음성 입력까지 처리하는 연구가 진행 중입니다. Qwen의 추론 효율은 8-bit, 4-bit 양자화 모델 제공으로 향상되었고, 메모리 최적화된 KV 캐시 구현으로 긴 맥락에서도 속도를 확보했습니다. 전반적으로 Qwen은 중국어와 영어 모두에서 뛰어난 균형 성능을 가지며, 공개 모델로서 산업계/학계에서 폭넓게 활용되고 있습니다.
Fireworks DeepSeek
- 모델 아키텍처: DeepSeek은 Fireworks.ai에서 개발한 혁신적 LLM으로, LLaMA-2를 시작점으로 지속적인 개량을 거듭한 모델 계열입니다. 최신 버전인 DeepSeek v3 (및 DeepSeek-R1) 의 아키텍처는 Transformer 디코더 기반에 대규모 Mixture-of-Experts(MoE) 층을 도입한 하이브리드 구조입니다. 구체적으로, 61개 레이어 중 58개 레이어에 MoE를 적용하였고, 레이어마다 256개 전문가를 두되 이중 1개는 항상 활성화(Shared Expert)되고 8~9개 전문가가 토큰별 활성화되는 설계입니다. 그 결과 총 파라미터는 약 6710억 개에 이르지만, 추론 시에는 약 380억 개 파라미터만 활성화되어 품질과 효율을 모두 잡았습니다. 또한 DeepSeek v3는 FP8 훈련을 세계 최초로 도입하여, 메모리 반감 및 연산 2배 가속 효과를 얻었습니다. 이 외에도 YaRN (Yet another RoPE extension) 기법으로 맥락길이를 160k 토큰까지 늘려 초장문 입력이 가능합니다. 요약하면, DeepSeek은 초대용량 MoE + 초장문맥 + FP8이라는 특수 구조로 동작하는 최첨단 LLM입니다.
- 훈련 데이터셋 및 언어 비중: DeepSeek은 영어와 중국어 두 언어에 모두 능숙하도록 설계되었습니다. LLaMA-2 대비 중국어 비중을 크게 늘린 코퍼스를 사용하였고, 이로 인해 토크나이저 vocabulary도 32k에서 102k로 확대되었습니다. Fireworks 발표에 따르면, DeepSeek의 학습 데이터는 LLaMA-2의 8배 이상에 달하며 (총 토큰 수 미공개, 추정 10조+), 여기에는 영문 위키/북/크롤과 함께 대규모의 중국어 웹 텍스트와 코드, 수학 데이터가 포함되었습니다. 실제로 LLaMA-2가 중국어 비중 0.13%에 불과했던 데 비해 DeepSeek은 영어-중국어 양대 언어 모두에서 고품질을 목표로 하였다고 합니다. 한국어는 주요 타겟은 아니지만 중국어와 함께 아시아 언어 지원을 염두에 두었기에, 한국어 데이터도 일부 포함되었을 수 있습니다. (다만 주로 영중 양대 언어에 집중.) DeepSeek R1 (최신 정렬 버전)은 영중 혼합된 대화형 프롬프트 데이터로 추가 미세튜닝 되어, 두 언어 모두에서 부드러운 대화를 할 수 있습니다.
- 훈련 기법 및 최적화: DeepSeek 개발팀은 일련의 연구 논문을 통해 매 버전 개선 사항을 발표했습니다. DeepSeek-LLM (v1) 에서 LLaMA-2 성능을 재현한 후, DeepSeek-v2에서는 RoPE를 개량한 YaRN 포지셔널 인코딩으로 맥락창 확장, Radical MoE 구조 도입으로 모델 용량 증대를 달성했습니다. v2에서 MoE 라우팅의 균형을 위한 보조 손실 등을 실험했고, v3에서는 균형 손실을 제거하는 대신 수동 gating bias로 라우팅 collapse를 해결하여 품질을 높였습니다. 또한 v3 학습 시 FP8 정밀도를 사용하여 학습 속도를 2배 높이고 메모리 소모를 절반으로 줄였습니다. DeepSeek R1은 v3 모델을 기반으로 RLHF 및 SFT를 거친 대화 최적화 모델로, 험블 AI의 헌법 원칙과 PPO 훈련을 적용하여 안전하고 유용한 응답을 생성하도록 튜닝되었습니다 (세부 방법은 미공개). 최적화적으로, Fireworks는 Nvidia H100 GPU 팜에서 파이프라인 병렬+데이터 병렬로 MoE 거대모델을 학습시켰으며, 온디맨드 전문가 메모리 관리 기법 등을 도입해 MoE의 비효율을 줄였습니다.
- 기타 특이사항: DeepSeek v3/R1은 오픈소스로 모델 가중치가 공개되어 있어, 연구자들이 가장 거대한 MoE LLM을 실험할 수 있게 했습니다. 모델 자체는 거대하지만 활성 파라미터만 사용하므로 추론 비용은 동등한 37B dense 모델 수준으로 경제적입니다. 평가 결과 DeepSeek v3 (베이스 모델)는 MMLU, GSM8K 등의 벤치마크에서 동급 LLaMA-2를 넘어 GPT-4-대응 오픈모델로 자리매김했고, R1(Instruction 모델)은 ChatGPT, Claude 등을 일부 항목에서 앞지르는 성과를 보였습니다. 멀티모달 측면에서는, Fireworks가 DeepSeek-VL이라는 비전랭귀지 버전도 연구 중이라 이미지도 다루게 할 계획입니다. DeepSeek은 현재 Fireworks AI의 API와 오픈 모델 라이브러리를 통해 제공되며, 빠른 발전 사이클로 지속 업그레이드되고 있습니다.
주요 모델 비교표
아래 표에는 상기의 주요 LLM들에 대한 아키텍처, 데이터, 훈련 기법 및 특이사항을 비교 정리하였습니다.
모델 | 아키텍처 및 파라미터 | 훈련 데이터 및 언어 비중 | 훈련 기법 (RLHF 등) | 특징 (멀티모달, 문맥길이, 공개여부 등) |
---|---|---|---|---|
GPT-3.5/4 (OpenAI) | Transformer 디코더. GPT-3: 1750억 파라미터 (96층), 컨텍스트 2048 → GPT-4: 비공개(추정 수천억~1조+), 컨텍스트 8k/32k, 멀티모달(이미지) 지원. | 웹텍스트, 서적, 코드 등 거의 영어 중심 (≈93% 영어, 기타 7%). 한국어 비중 매우 낮음. GPT-4는 더 다양한 데이터 (이미지 포함) 사용. | 사전학습 후 지도 미세튜닝+RLHF 적용. GPT-4는 강화학습을 통한 응답 품질/안전 최적화 (인간 피드백 및 전문가 평가 반영). | 최고 성능 범용 모델. GPT-4: 이미지+텍스트 멀티모달 지원, 뛰어난 추론 능력. 폐쇄형(API 제공), 가중치 비공개. 파인튜닝 제한적 (GPT-3 일부만 가능). |
Gemini (Google) | Transformer 기반 멀티모달 아키텍처. 별도 비전/오디오 인코더 + 텍스트 디코더 통합 구조. Ultra/Pro/Nano 등 크기별 모델 (Ultra 추정 1천억~1조+ 파라미터). | 멀티모달+멀티언어 대용량 데이터 (웹문서, 코드, 이미지, 음성 등). 영어+중국어 등 고자원 언어 위주, 한국어 포함 20~30개 언어 학습. | 사전학습 후 멀티단계 튜닝: 대규모 SFT, 인간피드백 RLHF (베타 테스트 통해 피드백 수집). AlphaGo 기법 접목한 고급 추론 강화학습 적용. | 토털 AI: 텍스트·이미지·음성 모두 처리. Ultra는 GPT-4를 능가하는 벤치마크 기록. 128K+ 컨텍스트, 실시간 정보 활용 지향. 상용 API 제공, 가중치 비공개. |
Claude 2 (Anthropic) | Transformer 디코더, 추정 1000억± 파라미터. 긴 문맥 특화: 100k 토큰 컨텍스트 지원 (특수 위치인코딩 최적화). 이전 버전 Claude 1 ~52B 추정. | 인터넷 텍스트+라이선스 데이터+사용자 대화 혼합. 영어 90% : 비영어 약 10% 포함. 한국어 데이터 일부 있으나 성능은 영어만큼 높지 않음. | Constitutional AI: 헌법 원칙 기반 자기피드백 훈련 + RLHF. 인간 레드팀 테스트 다수 수행, PPO로 유해성 감소 튜닝. | 안전하고 긴맥락 대화 특화. 100k 컨텍스트로 긴 문서 분석 가능. 응답 어조 친절/정중, 거짓말 감소 목표. API로 제공, 비공개 모델. |
Grok (xAI) | Transformer + MoE 하이브리드. Grok-1: 3140억 파라미터 MoE (8전문가 중 2활성, ≈25% 활성화). Grok-3: 3140억 유지, 128k 토큰 컨텍스트. | X(트위터) 데이터 + 웹 텍스트 대규모 학습. 영어 인터넷 언어 위주지만, X상 다언어 콘텐츠로 한국어 등 혼재. 캐주얼한 대화체/밈 데이터 많음. | 사전학습 후 RLHF 튜닝 (X 사용자 피드백 활용). 실시간 지식 반영 위해 모델 업데이트 지속. 오픈소스 Grok-1 공개 (베이스 모델). | 실시간 정보 접근 강점 (X와 연결된 챗봇). 직설적이고 유머러스한 응답 스타일. 128k 긴 맥락, 추론속도 동급대비 ↑. Grok-1 가중치 공개(Apache2), 최신버전은 xAI 서비스로 제공. |
LLaMA-2 (Meta) | Transformer 디코더, 70B/34B/13B/7B 파라미터 버전. RoPE 위치인코딩, SwiGLU, RMSNorm 적용. 34B↑에는 GQA 최적화 사용. 컨텍스트 4k (확장가능). | 2조 토큰 웹크롤+책+위키+코드 등. 영어 89.7% + 코드 8% + 기타 언어 <3% (중국어 0.13% 등). 한국어 매우 미미. | 3단계 학습: 사전학습 → 지도 SFT (대화형 데이터) → RLHF (PPO+거부샘플)로 Align 모델 생성. 공개 후 커뮤니티에서 다양하게 파인튜닝. | 오픈소스 SOTA: 가중치 공개, 연구용으로 활발히 활용. 동급 모델 대비 효율 높고, 수많은 파생모델 존재. 다만 멀티모달 미지원, 영어 편향. 상용 이용 가능(메타 라이선스). |
Qwen-14B/72B (Alibaba) | Transformer 디코더 (GPT유사). 7B, 14B, 72B 파라미터 모델 공개. 72B는 컨텍스트 32k 지원 (RoPE 재학습). Vocab 15만+ 로 영중문자 효율 인코딩. MoE 대형버전(Qwen-2.5-Max) 내장. | 멀티언어 + 멀티도메인 2~3조토큰 학습. 중국어+영어 특화 & 20여개 언어 지원. 한국어 포함 29개 언어 지원 명시 (중/영 대비 적은 비중이지만 성능 준수). | 사전학습 후 SFT + RLHF로 챗모델 생성. 고품질 인스트럭션 데이터와 강력한 보상모델 구축해 PPO 훈련. 코드, 수학 별도 전문 모델도 파생. | 중국발 오픈모델 최고 성능. 영어-중국어 이중강점으로 다국어 능력 뛰어남. 32k 문맥, 툴 사용 (API 함수 호출) 기능 포함. 가중치 전면 공개 (Apache 2.0), 커뮤니티 지원 활발. |
DeepSeek (Fireworks) | Transformer + 초대형 MoE. 61개층 중 58층 MoE, 층별 256개 전문가 (9개 활성). 총 671B param 중 활성 38B param 수준. FP8 훈련 도입, 맥락 160k까지 (YaRN RoPE). | 영어+중국어 이중 언어 대용량 데이터. LLaMA2 대비 중국어 대폭 증량하여 영-중 모두 SOTA급 목표. (한국어 등 기타언어 일부 포함 가능하나 영중에 집중.) 데이터량 수조~10조+ 추정. | 버전별 논문으로 개선. v3: MoE 강화, 균형 라우팅 개선. FP8 정밀도로 학습 가속. R1: v3에 RLHF 접목해 대화튜닝 (영/중 혼합, 도움되고/무해함 지향). | 최첨단 MoE 연구: 적은 계산으로 초거대 모델 효과 달성. 오픈소스 가중치 공개, 연구자 접근 용이. 160k 초장문 처리 및 수학/코드 강점. 다만 모델 규모가 매우 커 인프라 요구 높음. |
각주: 굵은 글씨는 각 모델의 두드러진 특징을 표시했습니다.
모델별 강점 분석
위 표에서 확인할 수 있듯이, 각 LLM 모델은 저마다 고유한 강점과 특성이 있습니다. 주요 모델별로 두드러지는 강점을 정리하면 다음과 같습니다:
- GPT-4 (OpenAI) – 전반적 지능과 멀티모달 능력: 최고 수준의 종합 성능을 보이며, 특히 영어 문해력, 추론력에서 우위를 점합니다. 또한 이미지 입력을 이해하는 멀티모달 능력을 갖춰, 시각정보를 포함한 응답 생성이 가능합니다. 다만 폐쇄형이라 사용자 커스터마이즈는 어려우나, 정교한 RLHF로 응답의 안전성과 대화 품질이 뛰어납니다.
- Google Gemini – 멀티모달 통합과 초광범위 지식: 텍스트·이미지·오디오·비디오를 모두 한 모델이 처리하도록 처음부터 설계되어, 복잡하고 다양한 형태의 질의에 대응할 수 있습니다. 초거대 Ultra 모델은 대부분 벤치마크 1위를 차지할 만큼 강력하며, 특히 실세계 문제 해결(수학, 코딩, 과학 분야)과 복합 추론에 강점을 보입니다. Google 인프라로 최적화되어 서비스적 활용도(모바일~클라우드)도 높습니다.
- Anthropic Claude – 긴 문맥 이해와 안전지향 대화: 100k 토큰에 달하는 대용량 문맥을 유지하면서도 일관성있게 대화할 수 있는 유일한 모델로서, 장문 분석/요약에 탁월합니다. 또한 헌법형 AI 접근을 통해 모델이 스스로 유해성을 낮추는 방향으로 훈련되어, 높은 안전성과 거짓말 억제 능력을 갖춘 것이 강점입니다. 사용자 의도를 잘 파악하면서도 정책에 어긋나는 요청을 부드럽게 거절하는 등 어시스턴트로서 균형 잡힌 대응을 합니다.
- xAI Grok – 실시간 지식과 모험적 응답: 최신 정보에 접근하여 시시각각 변하는 상황 (뉴스, 주식, 소셜미디어 트렌드 등)에 답할 수 있는 유일한 상용 챗봇입니다. X 데이터를 학습한 덕분에 인터넷 밈, 구어체, 유머에도 능하며, 사용자가 다른 모델에서 금기시된 질문을 해도 비교적 직설적으로 답변해주는 경향이 있습니다. 모험적이고 재치있는 AI 조수를 원할 때 강점이 있으며, 오픈소스 공개로 연구 커뮤니티 기여도 가능합니다.
- Meta LLaMA-2 – 오픈소스 생태계와 효율: 가중치 공개로 파생 연구가 가장 활발한 모델로, 수십 종의 파인튜닝 버전이 존재합니다. 비교적 적은 자원으로도 학습되었으며, 동급 크기 대비 추론이 빠르고 경량화(양자화) 에 유리합니다. 상업적 사용까지 허용되는 열린 모델이라 기업/연구자들이 자유롭게 활용 가능하며, 영어 등 자원이 풍부한 언어에서 강력한 성능을 보입니다. 다만 기본 멀티모달이나 실시간 기능은 없지만, 오픈소스 도구를 통해 쉽게 확장 가능합니다.
- Alibaba Qwen – 중영 양어 최적화와 균형형 성능: 영어와 중국어 두 언어 모두에서 우수한 성능을 내는 보기 드문 모델로, 중국 내외 벤치마크에서 GPT-3.5를 상회합니다. 코딩, 수학 능력도 특화 모델 통해 강화되었고, 29개 언어 이상 지원으로 다국어 활용에도 경쟁력이 있습니다. 또한 툴 사용 및 에이전트 프레임워크(함수 호출, 코드해석 등) 지원이 내장되어 실제 어시스턴트 활용에 용이합니다. 오픈소스로 커뮤니티 친화적이고, 기업 수준 엔지니어링 (예: 32K 문맥)도 갖춘 점이 돋보입니다.
- Fireworks DeepSeek – 최첨단 연구 기능 (초장문+초거대 MoE): 현재 공개된 모델 중 가장 혁신적인 아키텍처를 채택하여, 수백억 활성 파라미터의 지식 용량과 16만 토큰에 이르는 긴 컨텍스트를 겸비했습니다. 그럼에도 MoE로 추론 비용은 낮춰 실용성을 확보한 것이 강점입니다. 특히 영어와 중국어 모두에서 SOTA 수준이라 글로벌 양쪽 언어에 대응 가능하고, FP8 트레이닝 등의 신기술 도입으로 추후 LLM 연구 방향을 제시하고 있습니다. (예: DeepSeek의 아이디어를 다른 모델들이 따라 채택하기 시작함.)
- Google Gemma – 경량화된 개방형 모델과 확장성: Google 최신 기술을 반영하면서 가볍게 만든 오픈모델로, 7B 이하 규모에서 동급 최고 성능을 냅니다. 또한 코드 특화 (CodeGemma), 재발산 결합 (RecurrentGemma), 비전-랭귀지 (PaliGemma) 등 다양한 실험적 변형을 함께 제공하여, 연구자들이 여러 방향으로 활용/확장할 수 있는 플랫폼 역할을 합니다. 즉, 큰 모델(Gemini)의 축소판임에도 멀티모달, 장문효율, 지식증류 등의 기술이 담겨있어 학습이나 추론 비용이 제한적인 환경에서 유용합니다.
요약하면, 폐쇄 모델(OpenAI/Anthropic) 들은 응답 세밀함과 멀티모달에서 강점이 있고, 오픈모델(Meta/Alibaba 등) 은 자유도와 다국어 지원에서 두각을 나타냅니다. 새로운 모델(xAI/Fireworks) 은 실시간성이나 초장문 등 특화 능력을 내세우고 있습니다. 이러한 특성 비교를 바탕으로, 다음 절에서는 한국어 성능을 강화하기 위한 새로운 LLM 설계 제안을 제시합니다.
한국어 특화 LLM 아키텍처 및 훈련 전략 제안
위 비교를 통해, 현재 주류 LLM들은 대부분 영어권 성능에 집중되어 있고 한국어에 대해서는 데이터 비중 부족 등으로 최적화가 덜 되어 있음을 확인했습니다. 따라서 한국어 이해와 생성 성능을 극대화하기 위해, 각 모델의 장점을 살린 새로운 LLM 아키텍처와 훈련 방안을 다음과 같이 제안합니다:
- 데이터 구성: 한국어 능력을 높이기 위해 훈련 코퍼스에서 한국어 비중을 대폭 확대합니다. 예컨대 전체 사전학습 토큰의 30~50%를 한국어 데이터로 할당하고, 나머지는 영어 및 기타 언어로 구성합니다. 이때 한국어 데이터는 뉴스, 소설, 백과사전, SNS 등 다양한 도메인을 포함하고, 한자어/외래어까지 포괄하도록 충분히 수집합니다. 동시에 영어 등 고자원 언어 데이터를 포함하여 다양한 주제 지식을 습득시키고, 필요 시 병렬 말뭉치로 다국어 학습을 시켜 한국어-영어 양쪽 지식을 연결합니다. (이를 통해 한국어로 물어봐도 영어권 지식을 활용한 답변이 가능해짐.)
- 모델 아키텍처: 기본적으로 Transformer 디코더 구조를 채택하되, 한국어의 특성에 맞게 토크나이저와 임베딩을 설계합니다. 예를 들어 SentencePiece 기반 100k 이상 대형 vocab을 사용하여 한국어 음절 및 형태소를 적절히 단위로 분할하도록 합니다 (조사/어미 등을 단독 토큰화하여 OOV 감소). 또한 모든 숫자, 한자 등을 분해했던 GPT 방식 대신, 한국어 고유명사는 합쳐서 한 토큰으로 인식되도록 맞춤형 토크나이저를 활용합니다. 모델 규모는 130억 ~ 270억 파라미터 수준을 기본으로 하되 (배포 용이성 고려), 계층적 확장이 가능하도록 디자인합니다. 예컨대 Mixture-of-Experts 레이어를 부분적으로 도입하여, 영어와 한국어 등 언어별 전문가를 둘 수 있습니다. MoE를 사용하면 필요한 경우 한국어 관련 지식은 한국어 전문가 경로로 처리되어 효율을 높이고, 그렇지 않을 땐 다른 전문가를 사용할 수 있어 다언어 간 간섭을 줄일 수 있습니다. 컨텍스트 길이는 초기에는 4k~8k로 설정하되, 추후 한국어 장편 문서 요약 등을 위해 RoPE 스케일 조정으로 32k 이상도 대응 가능하도록 합니다.
- 훈련 기법: 사전학습 후 한국어에 특화된 지속적 추가 학습(Continual Pretraining)을 제안합니다. 예를 들어 영어 데이터로 기본 언어 능력을 갖춘 후, 한국어 텍스트로 수Epoch 추가 학습하여 한국어 표현에 더욱 익숙하게 만듭니다 (이 방법은 한국어 성능을 5~10% 향상시키는 것으로 보고됨). 그 다음 지도 미세튜닝 단계에서는 한국어로 된 명령-응답 데이터셋(예: 한국어 번역된 OIG, 코쿼드 등)을 사용해 모델을 튜닝합니다. 특히 존댓말/반말 체계 등 한국어 특유의 문체를 잘 구사하도록, 다양한 상황별 대화 데이터를 반영합니다. 마지막으로 RLHF 단계에서는 한국인 평가자들이 선호하는 답변 스타일 (정확성과 함께 공손하고 맥락에 맞는 존댓말 등)을 보상으로 주어 모델을 최적화합니다. Anthropic의 헌법 AI도 한국어로 재구성하여 적용할 수 있습니다 – 예를 들어 한국 사회문화에 맞는 “AI 행동 강령”을 한국어로 만들어 모델이 이를 따르도록 하는 것입니다.
- 최적화 및 기타: 한국어는 형태 변화가 많아 긴 출력 생성 시 일관성 유지가 중요합니다. 이를 위해 디코딩 전략으로 체크포인트 디코딩(중간 생성문 검토)이나 언어 교정 모듈(생성 문장을 한 번 더 감수)을 통합할 수 있습니다. 또한 한국어 지식 강화 차원에서 오픈 한국어 지식 그래프나 위키백과 한글판 정보를 모델과 결합하는 Retrieval-Augmented Generation (RAG) 기법도 활용합니다. 멀티모달의 경우, 한국어 OCR 데이터셋(예: 한국어 간판/문서 이미지 ↔ 텍스트)을 활용해 이미지-텍스트 융합 모델로 확장하면, 한국어 문서 이미지 읽기 등 특화능력이 생길 것입니다. 마지막으로 배포 시에는 LoRA 등의 경량화 파인튜닝 기법을 제공하여 사용자들이 자체 한국어 전문 도메인 튜닝을 쉽게 할 수 있게 합니다.
이러한 전략을 표로 요약하면 아래와 같습니다:
제안 요소 | 구체적인 방안 및 기대 효과 |
---|---|
한국어 데이터 비중 확대 | 전체 학습 코퍼스의 ~40%를 한국어로 구성. 뉴스, 문학, 위키, SNS 등 다양히 수집. 한국어 데이터 양 증가로 언어적 표현력 향상 및 한국 문화/상식 지식 강화. 다국어 중 한국어 우선 순위 높여 영어 편중 완화. |
대형 토크나이저 및 형태소 처리 | 100k+ vocab SentencePiece 사용해 한글 음절/어절을 효율 인코딩. 형태소 단위 토큰화로 희소 현상 감소. 한국어 복합어/고유명사도 단일 토큰 처리해 생성 정확도 향상. |
MoE 전문가로 다언어 분리 | 모델 일부 층에 MoE 적용, 한국어 전문 전문가 추가. 한국어 입력 시 해당 expert 활성화로 언어 간 간섭 감소 및 퍼포먼스 향상. (예: 영어 질문은 영문 expert가, 한글 질문은 한글 expert가 주로 담당). |
한국어 Continual Pretraining | 멀티언어 사전학습 후 한국어 코퍼스로 추가 pretrain 단계 수행. 한국어 표현 패턴/어휘를 집중 학습하여, 번역투 줄이고 자연스러운 한국어 구사. 실제 실험에서 타 언어 모델도 해당 언어 성능 크게 향상 보고. |
한국어 지도튜닝 & RLHF | 한국어 QA, 요약, 대화 데이터로 SFT 수행. 높임말, 경어체 등 상황별 출력 훈련. 한국인 평가단의 피드백으로 RLHF 적용해 한국 문화 맥락에 맞는 답변 최적화. 그 결과 한국어 유창성과 문맥 적합성 증대, 거부/금지 응답도 문화에 맞게 조정. |
긴 문맥 및 복합 입력 대응 | RoPE 위치인코딩 스케일 조정으로 컨텍스트 16k~32k 지원. 한국어 긴 글 (예: 판결문) 요약에 유리. 추후 이미지 입력 겸비 위해 한국어 문서 OCR 데이터로 멀티모달 튜닝 (한국어 문서 이미지→텍스트 설명 가능) 도입. |
툴 사용 및 검색 통합 | 한국어 정보 검색 API 연동하여, 사실 확인이나 최신 정보 질의에 RAG 활용. 예: 한국어 위키백과나 포털 검색을 통해 최신 한국 뉴스도 답변에 반영. 한국어 질의에 대한 정확성 향상. |
경량화 및 파인튜닝 지원 | 파인튜닝 시 LoRA 등의 기법으로 소량 한국어 전문말뭉치로도 도메인 적합화 가능. 예: 법률 한국어 데이터로 LoRA 튜닝→법률질의 특화모델. 또한 INT4 양자화로 일반 GPU에서도 서비스 가능. |
이상의 설계와 전략을 통해 개발되는 새로운 LLM은 한국어에 대한 심층적인 이해와 자연스러운 생성 능력을 갖추게 될 것입니다. 요컨대 방대한 한국어 데이터를 바탕으로 언어모델의 언어적 표현력과 문화적 맥락 이해를 높이고, 최신 기법(MoE, RLHF 등)을 적용함으로써 기존 모델 대비 한국어 질의응답의 정확도, 유창성, 그리고 유용성을 크게 향상시킬 수 있을 것으로 기대됩니다.
'Projects' 카테고리의 다른 글
리만 가설과 그 증명 (1) | 2025.06.20 |
---|---|
인지 과학 기반의 적응적이고 견고한 AI 시스템 설계 (2) | 2025.06.08 |
AI 개발: 인간 윤리 발달, 사회적 상호작용 및 피드백의 역할에서 얻은 이해를 통한 미묘하고 맥락을 인지하는 윤리적 행동 촉진 연구 (3) | 2025.06.08 |
윤리적 AI 설계: 능동적 개발, 인간 감독, 그리고 AI 도덕적 추론의 미래 개척 (0) | 2025.06.08 |
인간의 내적 행동강령과 대화형 인공지능 시스템 프롬프트 심층 비교 분석: 행동 및 출력 지침의 유사점 (2) | 2025.06.08 |