AI & Statistics Lab

분류 전체보기 92

"MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement" 논문 리뷰

"MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement" 논문은 기계 학습(ML) 모델을 자동으로 구현하는 LLM 기반 머신러닝 엔지니어링(MLE) 에이전트의 새로운 접근 방식을 제안합니다. 이 논문은 기존 MLE 에이전트의 한계를 극복하고, Kaggle 경쟁에서 뛰어난 성능을 달성하여 그 효과를 입증합니다.1. 서론 및 기존 방법론의 한계머신러닝의 발전은 다양한 실제 애플리케이션에서 고성능을 가능하게 했지만, 여전히 모델 개발은 데이터 과학자에게 많은 반복적인 실험과 데이터 엔지니어링을 요구하는 노동 집약적인 과정입니다. 최근 연구는 이러한 워크플로우를 간소화하기 위해 LLM(대규모 언어 모델)을 MLE 에이전트로..

Paper Review 2025.08.11

논문 리뷰: Test-Time 컴퓨팅의 역 스케일링 (Inverse Scaling in Test-Time Compute)

논문 리뷰: Test-Time 컴퓨팅의 역 스케일링 (Inverse Scaling in Test-Time Compute)이 논문은 대규모 추론 모델(Large Reasoning Models, LRMs)이 추론 길이를 늘릴수록 성능이 저하되는 '역 스케일링(inverse scaling)' 현상을 평가하는 새로운 과제들을 제시하고 그 결과를 분석합니다. 이는 일반적으로 더 많은 테스트 시간 컴퓨팅(추론 과정에서 생성되는 토큰 수)이 모델의 능력과 견고성을 향상시킨다는 기존의 긍정적인 스케일링 관계(예: Jaech et al., 2024; Guo et al., 2025; Anthropic, 2025b 등)와 대조됩니다. 이 연구는 더 길어진 추론이 비효율성(overthinking)을 넘어 오히려 문제적인 추론..

Paper Review 2025.07.27

"Prediction-Augmented Generation for Automatic Diagnosis Tasks" 논문 리뷰

이 논문 "Prediction-Augmented Generation for Automatic Diagnosis Tasks"는 자동 진단(Automatic Diagnosis System, ADS)과 같은 추론 기반 작업에서 대규모 언어 모델(LLM)의 한계를 극복하기 위해 예측 증강 생성(Prediction-Augmented Generation, PAG)이라는 새로운 방법론을 제안합니다.초록 및 서론대부분의 LLM은 이전 문맥을 기반으로 다음 단어 토큰을 예측하는 자기 회귀(autoregressive) 아키텍처를 채택합니다. 이러한 방식은 글쓰기나 요약과 같은 언어 생성 작업에는 강력하지만, 예측 및 의사 결정과 같은 높은 수준의 추론 작업에는 한계가 있습니다. LLM은 인간의 사고 방식과 덜 유사하며, ..

Paper Review 2025.07.26

외식산업의 미래를 조각하다: 인공지능(AI) 도입을 위한 종합 전략

외식산업의 미래를 조각하다: 인공지능(AI) 도입을 위한 종합 전략 서론: 패러다임의 전환 - 왜 지금 외식산업에 AI가 필수적인가?현대 외식 산업은 전례 없는 복합적 위기에 직면해 있다. 심화되는 인력난과 최저임금 상승으로 인한 인건비 압박, 예측 불가능한 원자재 가격 변동성, 그리고 신속성과 고도의 개인화를 동시에 요구하는 소비자 기대의 급격한 변화는 기존의 운영 방식으로는 더 이상 감당하기 어려운 구조적 한계를 드러내고 있다. 이러한 도전 과제들은 외식 산업 전반에 걸쳐 기술적 돌파구의 도입이 시급함을 역설한다.이 글은 인공지능(AI)을 단순한 비용 절감을 위한 자동화 도구로 보는 편협한 시각에서 벗어나, 데이터 기반의 정밀한 의사결정을 통해 새로운 수익원을 창출하고, 고객 경험을 근본적으로 혁신하..

기타 2025.07.25

웹 자동화의 미래를 열다: Playwright MCP

웹 자동화의 미래를 열다: Playwright MCP서론최신 웹 자동화 분야에서 Playwright는 독보적인 위치를 차지하고 있습니다. Microsoft가 개발한 오픈 소스 자동화 프레임워크인 Playwright는 Node.js 라이브러리로 구축되어 Chromium, Firefox, WebKit 등 다양한 브라우저에서 웹 애플리케이션을 자동화할 수 있는 강력한 도구로 자리매김했습니다.1 이 단일화된 API는 개발자와 QA 엔지니어가 안정적이고 유지보수하기 쉬운 브라우저 테스트를 손쉽게 작성할 수 있도록 지원합니다.1 Playwright가 폭넓게 사용되는 이유는 견고한 기능, 일관된 아키텍처, 크로스 브라우저/플랫폼/언어 지원, 그리고 복잡한 테스트 시나리오를 위한 풍부한 도구 덕분입니다.1 기본적으로 ..

기타 2025.07.24

"Context Rot: How Increasing Input Tokens Impacts LLM Performance" 리뷰

이 보고서는 "Context Rot: How Increasing Input Tokens Impacts LLM Performance"라는 제목의 Chroma 기술 보고서로, 대규모 언어 모델(LLM)이 입력 토큰 수가 증가함에 따라 컨텍스트를 처리하는 방식이 얼마나 비균일하고 신뢰할 수 없는지를 심층적으로 평가합니다. 일반적으로 LLM은 100번째 토큰과 10,000번째 토큰을 동일하게 안정적으로 처리할 것으로 예상되지만, 이 보고서는 실제로는 그렇지 않다는 것을 밝혀냈습니다.최근 LLM 개발의 추세는 입력 토큰 수가 수백만 개에 달하는 더 긴 컨텍스트 창으로 향하고 있습니다. Needle in a Haystack (NIAH)과 같은 널리 사용되는 벤치마크에서 이 모델들이 거의 완벽한 점수를 달성함에 따라..

Paper Review 2025.07.23

데이터센터 대확산 시대: 환경·사회적 문제와 지속가능한 해법

데이터센터 대확산 시대: 환경·사회적 문제와 지속가능한 해법디지털 시대의 거점, 데이터센터의 양면성오늘날 전 세계 곳곳에서 대규모 데이터센터 건설 붐이 일어나고 있습니다. 클라우드 서비스와 AI 발전으로 데이터 수요가 폭증하면서, 미국과 유럽, 아시아 각지에 거대한 서버 창고들이 우후죽순 들어서고 있죠. 이들 데이터센터는 디지털 경제의 핵심 인프라로서 편리함과 혁신을 이끌지만, 동시에 막대한 에너지 소비와 환경 부하, 그리고 지역사회와의 갈등이라는 어두운 그림자를 드리우고 있습니다. 본 글에서는 데이터센터가 집중 건설·운영되고 있는 주요 국가들을 중심으로 이러한 환경적·사회적 문제 현황을 살펴보고, 이어서 친환경 기술, 정책 및 기업 전략을 아우르는 지속가능한 해결책을 모색해보겠습니다.폭발적인 에너지 소..

기타 2025.07.11

과학기술의 발전은 인류의 행복을 높여주는가?

과학기술의 발전은 인류의 행복을 높여주는가?멈추지 않는 혁신: 발전을 위한 발전현대 사회에서는 인공지능, 스마트폰, 가상화폐, 자율주행차 등 새로운 기술이 쉴 새 없이 등장하고 있습니다. 기업과 국가들은 자본주의 시장 경쟁 속에서 살아남기 위해 끊임없는 기술 개발 경쟁을 벌이고, 더 빠르고 혁신적인 제품을 내놓으려 합니다. 기술 발전의 속도는 그 자체가 목표가 된 듯 보이기도 합니다. 실제로 기술철학자 자크 엘륄(Jacques Ellul)은 현대 사회가 “진보 그 자체를 위한 진보”에 몰두하여 기술 발전을 궁극적 목표로 삼고 있으며, 원래 기술 개발의 목적이었어야 할 인류의 안녕(행복 추구)은 어느새 효율성 추구로 대체되고 있다고 지적했습니다. 다시 말해, 기술은 수단이 아니라 어느새 목적이 되어 버렸고..

기타 2025.07.09

Google Gemini 모델 논문 리뷰

이 논문은 이미지, 오디오, 비디오, 텍스트 이해 능력 전반에 걸쳐 뛰어난 성능을 보이는 새로운 다중 모달 모델 제품군인 Gemini를 소개합니다. Gemini는 Google에서 개발되었으며, 각 도메인에서 최첨단 이해 및 추론 성능과 함께 모달리티 전반에 걸쳐 강력한 범용 역량을 구축하는 것을 목표로 이미지, 오디오, 비디오 및 텍스트 데이터를 공동으로 학습했습니다.1. Gemini 모델 제품군Gemini 1.0은 세 가지 주요 크기로 제공되며, 각각 다른 계산 제약 조건 및 애플리케이션 요구 사항을 처리하도록 맞춤 제작되었습니다:Gemini Ultra: 가장 강력한 모델로, 추론 및 다중 모달 작업 등 광범위한 고도로 복잡한 작업에서 최첨단 성능을 제공합니다.Gemini Pro: 성능 최적화된 모델로..

Paper Review 2025.07.06

"Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources" 논문 리뷰

이 논문은 "Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources"라는 제목의 연구로, 기존의 영어 기반 대규모 언어 모델(LLM)을 적은 자원으로 한국어에 효율적으로 적응시키는 방법을 제시하고 있습니다.1. 연구의 배경 및 목표문제점:최첨단 LLM은 영어 또는 중국어 외 다른 언어에서 저조한 성능을 보이는 경우가 많습니다. 예를 들어, Meta가 개발한 Llama는 한국어에서 영어보다 훨씬 낮은 성능을 보입니다.LLM의 전체 엔드투엔드 훈련 과정은 독점적인 이유, 기술적 복잡성, 일관성 없는 문서, 윤리적 고려사항 등으로 인해 대중에게 거의 알려져 있지 않으며, 이는 업계의 비밀로 유지되고 있습니다.정부, 대학, 스타트업 등은 ..

Paper Review 2025.07.06