AI & Statistics Lab

Paper Review 34

논문 리뷰: Test-Time 컴퓨팅의 역 스케일링 (Inverse Scaling in Test-Time Compute)

논문 리뷰: Test-Time 컴퓨팅의 역 스케일링 (Inverse Scaling in Test-Time Compute)이 논문은 대규모 추론 모델(Large Reasoning Models, LRMs)이 추론 길이를 늘릴수록 성능이 저하되는 '역 스케일링(inverse scaling)' 현상을 평가하는 새로운 과제들을 제시하고 그 결과를 분석합니다. 이는 일반적으로 더 많은 테스트 시간 컴퓨팅(추론 과정에서 생성되는 토큰 수)이 모델의 능력과 견고성을 향상시킨다는 기존의 긍정적인 스케일링 관계(예: Jaech et al., 2024; Guo et al., 2025; Anthropic, 2025b 등)와 대조됩니다. 이 연구는 더 길어진 추론이 비효율성(overthinking)을 넘어 오히려 문제적인 추론..

Paper Review 2025.07.27

"Prediction-Augmented Generation for Automatic Diagnosis Tasks" 논문 리뷰

이 논문 "Prediction-Augmented Generation for Automatic Diagnosis Tasks"는 자동 진단(Automatic Diagnosis System, ADS)과 같은 추론 기반 작업에서 대규모 언어 모델(LLM)의 한계를 극복하기 위해 예측 증강 생성(Prediction-Augmented Generation, PAG)이라는 새로운 방법론을 제안합니다.초록 및 서론대부분의 LLM은 이전 문맥을 기반으로 다음 단어 토큰을 예측하는 자기 회귀(autoregressive) 아키텍처를 채택합니다. 이러한 방식은 글쓰기나 요약과 같은 언어 생성 작업에는 강력하지만, 예측 및 의사 결정과 같은 높은 수준의 추론 작업에는 한계가 있습니다. LLM은 인간의 사고 방식과 덜 유사하며, ..

Paper Review 2025.07.26

"Context Rot: How Increasing Input Tokens Impacts LLM Performance" 리뷰

이 보고서는 "Context Rot: How Increasing Input Tokens Impacts LLM Performance"라는 제목의 Chroma 기술 보고서로, 대규모 언어 모델(LLM)이 입력 토큰 수가 증가함에 따라 컨텍스트를 처리하는 방식이 얼마나 비균일하고 신뢰할 수 없는지를 심층적으로 평가합니다. 일반적으로 LLM은 100번째 토큰과 10,000번째 토큰을 동일하게 안정적으로 처리할 것으로 예상되지만, 이 보고서는 실제로는 그렇지 않다는 것을 밝혀냈습니다.최근 LLM 개발의 추세는 입력 토큰 수가 수백만 개에 달하는 더 긴 컨텍스트 창으로 향하고 있습니다. Needle in a Haystack (NIAH)과 같은 널리 사용되는 벤치마크에서 이 모델들이 거의 완벽한 점수를 달성함에 따라..

Paper Review 2025.07.23

Google Gemini 모델 논문 리뷰

이 논문은 이미지, 오디오, 비디오, 텍스트 이해 능력 전반에 걸쳐 뛰어난 성능을 보이는 새로운 다중 모달 모델 제품군인 Gemini를 소개합니다. Gemini는 Google에서 개발되었으며, 각 도메인에서 최첨단 이해 및 추론 성능과 함께 모달리티 전반에 걸쳐 강력한 범용 역량을 구축하는 것을 목표로 이미지, 오디오, 비디오 및 텍스트 데이터를 공동으로 학습했습니다.1. Gemini 모델 제품군Gemini 1.0은 세 가지 주요 크기로 제공되며, 각각 다른 계산 제약 조건 및 애플리케이션 요구 사항을 처리하도록 맞춤 제작되었습니다:Gemini Ultra: 가장 강력한 모델로, 추론 및 다중 모달 작업 등 광범위한 고도로 복잡한 작업에서 최첨단 성능을 제공합니다.Gemini Pro: 성능 최적화된 모델로..

Paper Review 2025.07.06

"Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources" 논문 리뷰

이 논문은 "Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources"라는 제목의 연구로, 기존의 영어 기반 대규모 언어 모델(LLM)을 적은 자원으로 한국어에 효율적으로 적응시키는 방법을 제시하고 있습니다.1. 연구의 배경 및 목표문제점:최첨단 LLM은 영어 또는 중국어 외 다른 언어에서 저조한 성능을 보이는 경우가 많습니다. 예를 들어, Meta가 개발한 Llama는 한국어에서 영어보다 훨씬 낮은 성능을 보입니다.LLM의 전체 엔드투엔드 훈련 과정은 독점적인 이유, 기술적 복잡성, 일관성 없는 문서, 윤리적 고려사항 등으로 인해 대중에게 거의 알려져 있지 않으며, 이는 업계의 비밀로 유지되고 있습니다.정부, 대학, 스타트업 등은 ..

Paper Review 2025.07.06

"Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors" 리뷰

이 논문은 대규모 언어 모델(LLM)의 사전 훈련 과정에서 발생하는 천문학적인 계산 비용(8비트 가중치 하나당 10^13~10^15 FLOPs) 문제를 해결하고자 하는 강력한 동기에서 출발합니다. 기존에는 LLM의 기능을 확장하거나 특정 작업에 적응시키기 위해 경사 기반 미세 조정(gradient-based fine-tuning)이나 RLHF(Reinforcement Learning from Human Feedback)와 같은 방법들이 사용되었는데, 이들은 매우 효과적이지만 엄청난 계산 비용과 방대한 훈련 데이터를 요구합니다. 이 연구는 이러한 비용이 많이 드는 패러다임을 "Assembly-of-Experts" (AoE)라는 새로운 모델 구성 방법을 통해 혁신하고자 합니다. AoE는 부모 모델의 파라미터..

Paper Review 2025.07.06

"Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search" 논문 리뷰

이 논문 "Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search"는 대규모 언어 모델(LLM)의 추론 시간 계산(inference-time computation)을 확장하여 복잡한 작업에 대한 성능을 향상시키는 새로운 프레임워크인 Adaptive Branching Monte Carlo Tree Search (AB-MCTS)를 제안합니다.서론 및 배경최근 연구에 따르면 추론 시 계산량을 늘리는 것이 LLM의 복잡한 작업 성능을 크게 향상시킬 수 있음이 입증되었습니다. 이러한 추론 시간 스케일링 접근 방식은 크게 세 가지로 분류됩니다: (1) 후학습 미세 조정(post-training fine-tuning..

Paper Review 2025.07.06

SpeechSSM 논문 리뷰

1. 서론 및 연구의 목적이 논문 "Long-Form Speech Generation with Spoken Language Models" (Se Jin Park 외)는 수 분에 걸친 긴 길이의 음성 생성 모델링을 다룹니다. 이는 긴 형식의 멀티미디어 생성 및 오디오 기반 음성 비서와 같은 애플리케이션에 필수적인 요구사항입니다. 현재의 음성 언어 모델들은 수십 초 이상의 그럴듯한 음성을 생성하는 데 어려움을 겪고 있으며, 이는 음성 토큰의 높은 시간 해상도로 인한 일관성 손실, 긴 시퀀스 학습 또는 외삽(extrapolation)과 관련된 아키텍처 문제, 그리고 추론 시 메모리 비용 등 여러 가지 이유 때문입니다. 이러한 문제를 해결하기 위해 이 논문은 선형 시간 시퀀스 모델링의 최신 발전을 기반으로 한 ..

Paper Review 2025.07.06

"Self-Adapting Language Models (SEAL)" 논문 리뷰

Self-Adapting Language Models (SEAL) 논문 리뷰1. 연구의 필요성 및 배경: LLM의 한계와 자기 적응의 중요성대규모 언어 모델(LLMs)은 방대한 텍스트 코퍼스에서 사전 학습되어 언어 이해 및 생성 분야에서 놀라운 능력을 보여주지만, 본질적으로 정적(static)인 특성을 가집니다. 즉, 새로운 작업, 지식 또는 예시에 직면했을 때 자체 가중치를 적응시키는 메커니즘이 부족합니다. 특정 작업에 모델을 적응시키거나, 새로운 정보를 통합하거나, 새로운 추론 능력을 습득하는 것은 작업별 데이터의 가용성이 제한적이기 때문에 여전히 어렵습니다.SEAL 논문은 이러한 한계를 극복하기 위해 흥미로운 가설을 탐구합니다: LLM이 자체 훈련 데이터를 변형하거나 생성하고 학습 절차를 변환하거나..

Paper Review 2025.07.04

HyperCLOVA X THINK 리뷰

HyperCLOVA X THINK 개요 및 목표HyperCLOVA X THINK는 HyperCLOVA X 제품군의 첫 번째 추론 중심 대규모 언어 모델입니다. 이 모델은 두 가지 주요 목표를 가지고 개발되었습니다:고급 추론 능력: 사실적 지식 암기를 넘어 논리적 추론 및 다단계 문제 해결 능력을 제공합니다.주권 AI(Sovereign AI) 촉진: 한국어에 특화된 언어적 유창성과 문화적 민감도를 제공하며, 지역적 가치 및 규제에 부합하는 데이터 거버넌스를 목표로 합니다. 특히 한국을 중심 목표로 설정했습니다.이 모델은 약 6조 개의 고품질 한국어 및 영어 토큰으로 사전 학습되었으며, 표적 합성 한국어 데이터로 보강되었습니다. 또한 컴퓨팅-메모리 균형을 이루는 Peri-LN Transformer 아키텍처를..

Paper Review 2025.07.03