AI & Statistics Lab

Paper Review 31

Google Gemini 모델 논문 리뷰

이 논문은 이미지, 오디오, 비디오, 텍스트 이해 능력 전반에 걸쳐 뛰어난 성능을 보이는 새로운 다중 모달 모델 제품군인 Gemini를 소개합니다. Gemini는 Google에서 개발되었으며, 각 도메인에서 최첨단 이해 및 추론 성능과 함께 모달리티 전반에 걸쳐 강력한 범용 역량을 구축하는 것을 목표로 이미지, 오디오, 비디오 및 텍스트 데이터를 공동으로 학습했습니다.1. Gemini 모델 제품군Gemini 1.0은 세 가지 주요 크기로 제공되며, 각각 다른 계산 제약 조건 및 애플리케이션 요구 사항을 처리하도록 맞춤 제작되었습니다:Gemini Ultra: 가장 강력한 모델로, 추론 및 다중 모달 작업 등 광범위한 고도로 복잡한 작업에서 최첨단 성능을 제공합니다.Gemini Pro: 성능 최적화된 모델로..

Paper Review 2025.07.06

"Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources" 논문 리뷰

이 논문은 "Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources"라는 제목의 연구로, 기존의 영어 기반 대규모 언어 모델(LLM)을 적은 자원으로 한국어에 효율적으로 적응시키는 방법을 제시하고 있습니다.1. 연구의 배경 및 목표문제점:최첨단 LLM은 영어 또는 중국어 외 다른 언어에서 저조한 성능을 보이는 경우가 많습니다. 예를 들어, Meta가 개발한 Llama는 한국어에서 영어보다 훨씬 낮은 성능을 보입니다.LLM의 전체 엔드투엔드 훈련 과정은 독점적인 이유, 기술적 복잡성, 일관성 없는 문서, 윤리적 고려사항 등으로 인해 대중에게 거의 알려져 있지 않으며, 이는 업계의 비밀로 유지되고 있습니다.정부, 대학, 스타트업 등은 ..

Paper Review 2025.07.06

"Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors" 리뷰

이 논문은 대규모 언어 모델(LLM)의 사전 훈련 과정에서 발생하는 천문학적인 계산 비용(8비트 가중치 하나당 10^13~10^15 FLOPs) 문제를 해결하고자 하는 강력한 동기에서 출발합니다. 기존에는 LLM의 기능을 확장하거나 특정 작업에 적응시키기 위해 경사 기반 미세 조정(gradient-based fine-tuning)이나 RLHF(Reinforcement Learning from Human Feedback)와 같은 방법들이 사용되었는데, 이들은 매우 효과적이지만 엄청난 계산 비용과 방대한 훈련 데이터를 요구합니다. 이 연구는 이러한 비용이 많이 드는 패러다임을 "Assembly-of-Experts" (AoE)라는 새로운 모델 구성 방법을 통해 혁신하고자 합니다. AoE는 부모 모델의 파라미터..

Paper Review 2025.07.06

"Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search" 논문 리뷰

이 논문 "Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search"는 대규모 언어 모델(LLM)의 추론 시간 계산(inference-time computation)을 확장하여 복잡한 작업에 대한 성능을 향상시키는 새로운 프레임워크인 Adaptive Branching Monte Carlo Tree Search (AB-MCTS)를 제안합니다.서론 및 배경최근 연구에 따르면 추론 시 계산량을 늘리는 것이 LLM의 복잡한 작업 성능을 크게 향상시킬 수 있음이 입증되었습니다. 이러한 추론 시간 스케일링 접근 방식은 크게 세 가지로 분류됩니다: (1) 후학습 미세 조정(post-training fine-tuning..

Paper Review 2025.07.06

SpeechSSM 논문 리뷰

1. 서론 및 연구의 목적이 논문 "Long-Form Speech Generation with Spoken Language Models" (Se Jin Park 외)는 수 분에 걸친 긴 길이의 음성 생성 모델링을 다룹니다. 이는 긴 형식의 멀티미디어 생성 및 오디오 기반 음성 비서와 같은 애플리케이션에 필수적인 요구사항입니다. 현재의 음성 언어 모델들은 수십 초 이상의 그럴듯한 음성을 생성하는 데 어려움을 겪고 있으며, 이는 음성 토큰의 높은 시간 해상도로 인한 일관성 손실, 긴 시퀀스 학습 또는 외삽(extrapolation)과 관련된 아키텍처 문제, 그리고 추론 시 메모리 비용 등 여러 가지 이유 때문입니다. 이러한 문제를 해결하기 위해 이 논문은 선형 시간 시퀀스 모델링의 최신 발전을 기반으로 한 ..

Paper Review 2025.07.06

"Self-Adapting Language Models (SEAL)" 논문 리뷰

Self-Adapting Language Models (SEAL) 논문 리뷰1. 연구의 필요성 및 배경: LLM의 한계와 자기 적응의 중요성대규모 언어 모델(LLMs)은 방대한 텍스트 코퍼스에서 사전 학습되어 언어 이해 및 생성 분야에서 놀라운 능력을 보여주지만, 본질적으로 정적(static)인 특성을 가집니다. 즉, 새로운 작업, 지식 또는 예시에 직면했을 때 자체 가중치를 적응시키는 메커니즘이 부족합니다. 특정 작업에 모델을 적응시키거나, 새로운 정보를 통합하거나, 새로운 추론 능력을 습득하는 것은 작업별 데이터의 가용성이 제한적이기 때문에 여전히 어렵습니다.SEAL 논문은 이러한 한계를 극복하기 위해 흥미로운 가설을 탐구합니다: LLM이 자체 훈련 데이터를 변형하거나 생성하고 학습 절차를 변환하거나..

Paper Review 2025.07.04

HyperCLOVA X THINK 리뷰

HyperCLOVA X THINK 개요 및 목표HyperCLOVA X THINK는 HyperCLOVA X 제품군의 첫 번째 추론 중심 대규모 언어 모델입니다. 이 모델은 두 가지 주요 목표를 가지고 개발되었습니다:고급 추론 능력: 사실적 지식 암기를 넘어 논리적 추론 및 다단계 문제 해결 능력을 제공합니다.주권 AI(Sovereign AI) 촉진: 한국어에 특화된 언어적 유창성과 문화적 민감도를 제공하며, 지역적 가치 및 규제에 부합하는 데이터 거버넌스를 목표로 합니다. 특히 한국을 중심 목표로 설정했습니다.이 모델은 약 6조 개의 고품질 한국어 및 영어 토큰으로 사전 학습되었으며, 표적 합성 한국어 데이터로 보강되었습니다. 또한 컴퓨팅-메모리 균형을 이루는 Peri-LN Transformer 아키텍처를..

Paper Review 2025.07.03

Hunyuan-A13B 리뷰

Hunyuan-A13B는 Tencent Hunyuan 팀이 개발한 오픈소스 대규모 언어 모델(LLM)로, Mixture-of-Experts (MoE) 아키텍처를 사용하여 계산 효율성과 모델 성능 간의 균형을 최적화한 것이 특징입니다. 이 모델은 복잡한 추론 능력과 효율적인 배포를 목표로 설계되었습니다.1. 주요 특징 및 아키텍처MoE 아키텍처: Hunyuan-A13B는 총 800억 개의 매개변수를 가지고 있지만, 추론 시에는 단 130억 개의 매개변수만 활성화됩니다. 이는 유사한 규모의 밀집 모델에 비해 추론 지연 시간과 계산 오버헤드를 상당히 줄이면서 최첨단 LLM에 필적하는 성능을 달성합니다.세부적으로는 1개의 공유 전문가(shared expert)와 64개의 세분화된 비공유 전문가(fine-grai..

Paper Review 2025.07.03

"VLRM: Vision-Language Models act as Reward Models for Image Captioning" 논문 리뷰

VLRM: 이미지 캡셔닝을 위한 비전-언어 모델을 보상 모델로 활용이 논문은 이미지 캡셔닝 모델, 특히 BLIP2를 강화 학습(Reinforcement Learning, RL)과 CLIP 및 BLIP2-ITM과 같은 비전-언어 모델(Vision-Language Models, VLM)을 보상 모델(Reward Model)로 활용하여 향상시키는 비지도 학습(unsupervised) 방식을 제안합니다. 이 방법을 통해 RL로 튜닝된 모델은 더 길고 포괄적인 설명을 생성할 수 있으며, MS-COCO Carpathy Test Split에서 인상적인 0.90 R@1 CLIP Recall 점수를 달성했습니다.1. 문제점 및 동기최근 개발된 이미지 캡셔닝 모델들은 인상적인 성능을 보여주었지만, 종종 캡션에 세부 정보가..

Paper Review 2025.06.15

wav2vec 2.0 논문 리뷰

wav2vec 2.0: 음성 표현의 자기 지도 학습을 위한 프레임워크이 논문은 레이블링되지 않은 음성 오디오만으로 강력한 표현(representation)을 학습하고, 이를 레이블링된 음성 데이터로 미세 조정(fine-tuning)하여, 기존의 최첨단 반 자기 지도(semi-supervised) 방법보다 우수한 성능을 달성할 수 있음을 처음으로 보여주는 연구입니다.1. 서론 및 배경 신경망은 대량의 레이블링된 훈련 데이터로부터 이점을 얻습니다. 그러나 전 세계 약 7,000개 언어의 대다수에서는 수천 시간의 전사된 음성 데이터 확보가 어렵기 때문에, 현재 음성 인식 시스템을 구축하기 어렵습니다. 인간의 언어 습득 방식이 레이블링된 예제로부터만 배우는 것과 다르다는 점에 착안하여, 이 연구는 자기 지도 학..

Paper Review 2025.06.15