AI & Statistics Lab

2025/06/15 5

"VLRM: Vision-Language Models act as Reward Models for Image Captioning" 논문 리뷰

VLRM: 이미지 캡셔닝을 위한 비전-언어 모델을 보상 모델로 활용이 논문은 이미지 캡셔닝 모델, 특히 BLIP2를 강화 학습(Reinforcement Learning, RL)과 CLIP 및 BLIP2-ITM과 같은 비전-언어 모델(Vision-Language Models, VLM)을 보상 모델(Reward Model)로 활용하여 향상시키는 비지도 학습(unsupervised) 방식을 제안합니다. 이 방법을 통해 RL로 튜닝된 모델은 더 길고 포괄적인 설명을 생성할 수 있으며, MS-COCO Carpathy Test Split에서 인상적인 0.90 R@1 CLIP Recall 점수를 달성했습니다.1. 문제점 및 동기최근 개발된 이미지 캡셔닝 모델들은 인상적인 성능을 보여주었지만, 종종 캡션에 세부 정보가..

Paper Review 2025.06.15

wav2vec 2.0 논문 리뷰

wav2vec 2.0: 음성 표현의 자기 지도 학습을 위한 프레임워크이 논문은 레이블링되지 않은 음성 오디오만으로 강력한 표현(representation)을 학습하고, 이를 레이블링된 음성 데이터로 미세 조정(fine-tuning)하여, 기존의 최첨단 반 자기 지도(semi-supervised) 방법보다 우수한 성능을 달성할 수 있음을 처음으로 보여주는 연구입니다.1. 서론 및 배경 신경망은 대량의 레이블링된 훈련 데이터로부터 이점을 얻습니다. 그러나 전 세계 약 7,000개 언어의 대다수에서는 수천 시간의 전사된 음성 데이터 확보가 어렵기 때문에, 현재 음성 인식 시스템을 구축하기 어렵습니다. 인간의 언어 습득 방식이 레이블링된 예제로부터만 배우는 것과 다르다는 점에 착안하여, 이 연구는 자기 지도 학..

Paper Review 2025.06.15

Convolutional Vision Transformer (CvT) 논문 리뷰

이 논문은 "CvT: Introducing Convolutions to Vision Transformers"라는 제목으로, 기존의 Vision Transformer (ViT) 아키텍처에 컨볼루션(Convolution) 연산을 도입하여 성능과 효율성을 개선한 새로운 아키텍처인 Convolutional vision Transformer (CvT)를 제안합니다. CvT의 목표는 CNN(Convolutional Neural Network)의 바람직한 특성(예: 이동, 스케일 및 왜곡 불변성)과 트랜스포머의 장점(예: 동적 어텐션, 전역 컨텍스트, 더 나은 일반화)을 결합하여 두 디자인의 최고를 이끌어내는 것입니다.1. 도입 및 배경트랜스포머는 최근 자연어 처리(NLP) 분야에서 광범위한 작업에 걸쳐 지배적인 위..

Paper Review 2025.06.15

"Training data-efficient image transformers & distillation through attention" DeiT 논문 리뷰

1. 서론 및 배경 (Introduction and Background) 최근 어텐션 기반 신경망이 이미지 분류와 같은 이미지 이해 작업에서 높은 성능을 보여주었습니다 [1]. 특히 비전 트랜스포머(Vision Transformer, ViT)는 이미지 분류 작업에 원시 이미지 패치를 입력으로 직접 적용하여 우수한 결과를 달성했습니다 [2, 3].그러나 기존의 고성능 비전 트랜스포머는 대규모 인프라를 사용하여 수억 개의 이미지로 사전 학습되어야 하므로, 그 채택이 제한적이었습니다 [1, 3, 4]. Dosovitskiy et al.의 연구 [5]에서는 트랜스포머가 "불충분한 양의 데이터로 학습할 때 잘 일반화되지 않는다"고 결론지었으며, 이러한 모델의 학습에는 광범위한 컴퓨팅 자원이 필요했습니다 [3].오..

Paper Review 2025.06.15

인공지능(AI)과 에너지의 연계에 관하여: 기회, 도전, 그리고 지속가능한 미래

인공지능(AI)과 에너지의 연계에 관하여: 기회, 도전, 그리고 지속가능한 미래I. 서론에너지 부문은 현대 사회의 근간을 이루며, 모든 산업과 일상생활에 필수적인 동력을 제공한다. 전력 생산, 송전, 배전, 소비의 각 단계에서 효율성, 신뢰성, 그리고 지속가능성 확보는 국가 경제와 국민 생활의 안정에 직결되는 중요한 과제이다.1 전 세계적으로 화석 연료 소비에 대한 우려가 증가하고 기후 변화에 대응하기 위한 탄소 순배출 제로(Net-Zero) 목표 달성의 압박이 커지면서, 에너지 시스템의 효율성과 친환경성 개선은 전례 없는 시급성을 띠고 있다.1이러한 배경 속에서 인공지능(AI)은 인간의 지능을 필요로 하는 작업을 수행할 수 있는 이론이자 소프트웨어로서, 기계가 학습, 추론, 새로운 환경에 적응할 수 있..

기타 2025.06.15