AI & Statistics Lab

2025/07/06 5

Google Gemini 모델 논문 리뷰

이 논문은 이미지, 오디오, 비디오, 텍스트 이해 능력 전반에 걸쳐 뛰어난 성능을 보이는 새로운 다중 모달 모델 제품군인 Gemini를 소개합니다. Gemini는 Google에서 개발되었으며, 각 도메인에서 최첨단 이해 및 추론 성능과 함께 모달리티 전반에 걸쳐 강력한 범용 역량을 구축하는 것을 목표로 이미지, 오디오, 비디오 및 텍스트 데이터를 공동으로 학습했습니다.1. Gemini 모델 제품군Gemini 1.0은 세 가지 주요 크기로 제공되며, 각각 다른 계산 제약 조건 및 애플리케이션 요구 사항을 처리하도록 맞춤 제작되었습니다:Gemini Ultra: 가장 강력한 모델로, 추론 및 다중 모달 작업 등 광범위한 고도로 복잡한 작업에서 최첨단 성능을 제공합니다.Gemini Pro: 성능 최적화된 모델로..

Paper Review 2025.07.06

"Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources" 논문 리뷰

이 논문은 "Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources"라는 제목의 연구로, 기존의 영어 기반 대규모 언어 모델(LLM)을 적은 자원으로 한국어에 효율적으로 적응시키는 방법을 제시하고 있습니다.1. 연구의 배경 및 목표문제점:최첨단 LLM은 영어 또는 중국어 외 다른 언어에서 저조한 성능을 보이는 경우가 많습니다. 예를 들어, Meta가 개발한 Llama는 한국어에서 영어보다 훨씬 낮은 성능을 보입니다.LLM의 전체 엔드투엔드 훈련 과정은 독점적인 이유, 기술적 복잡성, 일관성 없는 문서, 윤리적 고려사항 등으로 인해 대중에게 거의 알려져 있지 않으며, 이는 업계의 비밀로 유지되고 있습니다.정부, 대학, 스타트업 등은 ..

Paper Review 2025.07.06

"Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors" 리뷰

이 논문은 대규모 언어 모델(LLM)의 사전 훈련 과정에서 발생하는 천문학적인 계산 비용(8비트 가중치 하나당 10^13~10^15 FLOPs) 문제를 해결하고자 하는 강력한 동기에서 출발합니다. 기존에는 LLM의 기능을 확장하거나 특정 작업에 적응시키기 위해 경사 기반 미세 조정(gradient-based fine-tuning)이나 RLHF(Reinforcement Learning from Human Feedback)와 같은 방법들이 사용되었는데, 이들은 매우 효과적이지만 엄청난 계산 비용과 방대한 훈련 데이터를 요구합니다. 이 연구는 이러한 비용이 많이 드는 패러다임을 "Assembly-of-Experts" (AoE)라는 새로운 모델 구성 방법을 통해 혁신하고자 합니다. AoE는 부모 모델의 파라미터..

Paper Review 2025.07.06

"Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search" 논문 리뷰

이 논문 "Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search"는 대규모 언어 모델(LLM)의 추론 시간 계산(inference-time computation)을 확장하여 복잡한 작업에 대한 성능을 향상시키는 새로운 프레임워크인 Adaptive Branching Monte Carlo Tree Search (AB-MCTS)를 제안합니다.서론 및 배경최근 연구에 따르면 추론 시 계산량을 늘리는 것이 LLM의 복잡한 작업 성능을 크게 향상시킬 수 있음이 입증되었습니다. 이러한 추론 시간 스케일링 접근 방식은 크게 세 가지로 분류됩니다: (1) 후학습 미세 조정(post-training fine-tuning..

Paper Review 2025.07.06

SpeechSSM 논문 리뷰

1. 서론 및 연구의 목적이 논문 "Long-Form Speech Generation with Spoken Language Models" (Se Jin Park 외)는 수 분에 걸친 긴 길이의 음성 생성 모델링을 다룹니다. 이는 긴 형식의 멀티미디어 생성 및 오디오 기반 음성 비서와 같은 애플리케이션에 필수적인 요구사항입니다. 현재의 음성 언어 모델들은 수십 초 이상의 그럴듯한 음성을 생성하는 데 어려움을 겪고 있으며, 이는 음성 토큰의 높은 시간 해상도로 인한 일관성 손실, 긴 시퀀스 학습 또는 외삽(extrapolation)과 관련된 아키텍처 문제, 그리고 추론 시 메모리 비용 등 여러 가지 이유 때문입니다. 이러한 문제를 해결하기 위해 이 논문은 선형 시간 시퀀스 모델링의 최신 발전을 기반으로 한 ..

Paper Review 2025.07.06