AI & Statistics Lab

Paper Review 35

HyperCLOVA X THINK 리뷰

HyperCLOVA X THINK 개요 및 목표HyperCLOVA X THINK는 HyperCLOVA X 제품군의 첫 번째 추론 중심 대규모 언어 모델입니다. 이 모델은 두 가지 주요 목표를 가지고 개발되었습니다:고급 추론 능력: 사실적 지식 암기를 넘어 논리적 추론 및 다단계 문제 해결 능력을 제공합니다.주권 AI(Sovereign AI) 촉진: 한국어에 특화된 언어적 유창성과 문화적 민감도를 제공하며, 지역적 가치 및 규제에 부합하는 데이터 거버넌스를 목표로 합니다. 특히 한국을 중심 목표로 설정했습니다.이 모델은 약 6조 개의 고품질 한국어 및 영어 토큰으로 사전 학습되었으며, 표적 합성 한국어 데이터로 보강되었습니다. 또한 컴퓨팅-메모리 균형을 이루는 Peri-LN Transformer 아키텍처를..

Paper Review 2025.07.03

Hunyuan-A13B 리뷰

Hunyuan-A13B는 Tencent Hunyuan 팀이 개발한 오픈소스 대규모 언어 모델(LLM)로, Mixture-of-Experts (MoE) 아키텍처를 사용하여 계산 효율성과 모델 성능 간의 균형을 최적화한 것이 특징입니다. 이 모델은 복잡한 추론 능력과 효율적인 배포를 목표로 설계되었습니다.1. 주요 특징 및 아키텍처MoE 아키텍처: Hunyuan-A13B는 총 800억 개의 매개변수를 가지고 있지만, 추론 시에는 단 130억 개의 매개변수만 활성화됩니다. 이는 유사한 규모의 밀집 모델에 비해 추론 지연 시간과 계산 오버헤드를 상당히 줄이면서 최첨단 LLM에 필적하는 성능을 달성합니다.세부적으로는 1개의 공유 전문가(shared expert)와 64개의 세분화된 비공유 전문가(fine-grai..

Paper Review 2025.07.03

"VLRM: Vision-Language Models act as Reward Models for Image Captioning" 논문 리뷰

VLRM: 이미지 캡셔닝을 위한 비전-언어 모델을 보상 모델로 활용이 논문은 이미지 캡셔닝 모델, 특히 BLIP2를 강화 학습(Reinforcement Learning, RL)과 CLIP 및 BLIP2-ITM과 같은 비전-언어 모델(Vision-Language Models, VLM)을 보상 모델(Reward Model)로 활용하여 향상시키는 비지도 학습(unsupervised) 방식을 제안합니다. 이 방법을 통해 RL로 튜닝된 모델은 더 길고 포괄적인 설명을 생성할 수 있으며, MS-COCO Carpathy Test Split에서 인상적인 0.90 R@1 CLIP Recall 점수를 달성했습니다.1. 문제점 및 동기최근 개발된 이미지 캡셔닝 모델들은 인상적인 성능을 보여주었지만, 종종 캡션에 세부 정보가..

Paper Review 2025.06.15

wav2vec 2.0 논문 리뷰

wav2vec 2.0: 음성 표현의 자기 지도 학습을 위한 프레임워크이 논문은 레이블링되지 않은 음성 오디오만으로 강력한 표현(representation)을 학습하고, 이를 레이블링된 음성 데이터로 미세 조정(fine-tuning)하여, 기존의 최첨단 반 자기 지도(semi-supervised) 방법보다 우수한 성능을 달성할 수 있음을 처음으로 보여주는 연구입니다.1. 서론 및 배경 신경망은 대량의 레이블링된 훈련 데이터로부터 이점을 얻습니다. 그러나 전 세계 약 7,000개 언어의 대다수에서는 수천 시간의 전사된 음성 데이터 확보가 어렵기 때문에, 현재 음성 인식 시스템을 구축하기 어렵습니다. 인간의 언어 습득 방식이 레이블링된 예제로부터만 배우는 것과 다르다는 점에 착안하여, 이 연구는 자기 지도 학..

Paper Review 2025.06.15

Convolutional Vision Transformer (CvT) 논문 리뷰

이 논문은 "CvT: Introducing Convolutions to Vision Transformers"라는 제목으로, 기존의 Vision Transformer (ViT) 아키텍처에 컨볼루션(Convolution) 연산을 도입하여 성능과 효율성을 개선한 새로운 아키텍처인 Convolutional vision Transformer (CvT)를 제안합니다. CvT의 목표는 CNN(Convolutional Neural Network)의 바람직한 특성(예: 이동, 스케일 및 왜곡 불변성)과 트랜스포머의 장점(예: 동적 어텐션, 전역 컨텍스트, 더 나은 일반화)을 결합하여 두 디자인의 최고를 이끌어내는 것입니다.1. 도입 및 배경트랜스포머는 최근 자연어 처리(NLP) 분야에서 광범위한 작업에 걸쳐 지배적인 위..

Paper Review 2025.06.15

"Training data-efficient image transformers & distillation through attention" DeiT 논문 리뷰

1. 서론 및 배경 (Introduction and Background) 최근 어텐션 기반 신경망이 이미지 분류와 같은 이미지 이해 작업에서 높은 성능을 보여주었습니다 [1]. 특히 비전 트랜스포머(Vision Transformer, ViT)는 이미지 분류 작업에 원시 이미지 패치를 입력으로 직접 적용하여 우수한 결과를 달성했습니다 [2, 3].그러나 기존의 고성능 비전 트랜스포머는 대규모 인프라를 사용하여 수억 개의 이미지로 사전 학습되어야 하므로, 그 채택이 제한적이었습니다 [1, 3, 4]. Dosovitskiy et al.의 연구 [5]에서는 트랜스포머가 "불충분한 양의 데이터로 학습할 때 잘 일반화되지 않는다"고 결론지었으며, 이러한 모델의 학습에는 광범위한 컴퓨팅 자원이 필요했습니다 [3].오..

Paper Review 2025.06.15

"4M: Massively Multimodal Masked Modeling" 논문 리뷰

논문의 목적 및 개요 이 논문은 4M이라는 다중 모달 학습 방식을 제안하며, 이는 비전 분야에서 대규모 언어 모델(LLMs)처럼 다양한 작업을 수행할 수 있는 범용적이고 확장 가능한 모델을 개발하기 위한 한 단계입니다. 현재 비전 모델은 단일 모달리티 및 작업에 고도로 특화된 경우가 많지만, 4M은 단일 통합 트랜스포머 인코더-디코더를 사용하여 텍스트, 이미지, 기하학적 및 의미론적 모달리티, 신경망 특징 맵 등 광범위한 입/출력 모달리티에 걸쳐 마스크 모델링 목표로 훈련합니다.4M의 핵심 능력 4M으로 훈련된 모델은 여러 가지 핵심 능력을 보여줍니다:다양한 비전 작업을 즉시(out of the box) 수행할 수 있습니다.보이지 않는 다운스트림 작업이나 새로운 입력 모달리티에 미세 조정 시 뛰어난 성능..

Paper Review 2025.06.10

ARTrackV2 논문 리뷰

ARTrackV2는 비디오 프레임 전반에 걸쳐 대상을 어디서 찾아야 할지(Localization)와 어떻게 외형을 묘사할지(Appearance analysis)라는 두 가지 핵심 추적 요소를 통합한 모델입니다. 이전 모델인 ARTrack의 개념을 확장하여, 객체의 궤적("읽어내는 것")과 외형("다시 말하는 것")을 자기회귀 방식(autoregressive manner)으로 "읽어내고 다시 말하는" 통합 생성 프레임워크를 도입합니다. 이 접근 방식은 이전 추정값을 바탕으로 움직임과 시각적 특징의 동시 진화(joint evolution)를 모델링하는 시간 연속적 방법론(time-continuous methodology)을 촉진합니다.ARTrackV2는 효율성과 단순성 면에서 두드러집니다. 효율성이 떨어지는..

Paper Review 2025.06.10

"A Discriminative Semantic Ranker for Question Retrieval" DenseTrans 리뷰

논문의 배경 및 문제점커뮤니티 기반 질의응답(CQA) 서비스(예: WikiAnswers, Quora, Stack Overflow)에서 핵심 작업 중 하나는 저장된 저장소에서 유사한 질문을 검색하는 것입니다. 효율성과 효과성의 균형을 맞추기 위해 질문 검색 시스템은 일반적으로 다단계 랭커(multi-stage rankers)로 구현됩니다. 첫 번째 단계 랭커는 대규모 저장소에서 잠재적으로 관련성이 있는 질문들을 효율적으로 리콜(recall)하는 것을 목표로 하며, 이후 단계들은 검색된 결과들을 다시 랭킹(re-ranking)합니다.대부분의 기존 질문 검색 연구는 주로 재랭킹 단계에 초점을 맞추었으며, 첫 번째 단계 랭커는 전통적인 용어 기반(term-based) 방법에 의존했습니다 (예: TF-IDF, B..

Paper Review 2025.06.10

"TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation" 리뷰

이 논문은 의료 영상 분할(Medical Image Segmentation)을 위한 새로운 아키텍처인 TransUNet을 제안합니다. 의료 영상 분할은 질병 진단 및 치료 계획에 필수적인 전제 조건으로 여겨집니다.기존 방법의 한계:CNN(Convolutional Neural Network) 기반 방법: FCN(Fully Convolutional Networks), 특히 U-Net과 같은 U자형 아키텍처는 의료 영상 분할 분야에서 지배적이었고 상당한 성공을 거두었습니다. 자기공명(MR) 영상의 심장 분할, 컴퓨터 단층 촬영(CT) 영상의 장기 분할, 대장 내시경 영상의 용종 분할 등 다양한 의료 애플리케이션에서 성공적으로 사용되었습니다.하지만 CNN 기반 접근 방식은 컨볼루션 연산의 내재적 지역성(intr..

Paper Review 2025.06.10