AI & Statistics Lab

2025/06/10 9

"4M: Massively Multimodal Masked Modeling" 논문 리뷰

논문의 목적 및 개요 이 논문은 4M이라는 다중 모달 학습 방식을 제안하며, 이는 비전 분야에서 대규모 언어 모델(LLMs)처럼 다양한 작업을 수행할 수 있는 범용적이고 확장 가능한 모델을 개발하기 위한 한 단계입니다. 현재 비전 모델은 단일 모달리티 및 작업에 고도로 특화된 경우가 많지만, 4M은 단일 통합 트랜스포머 인코더-디코더를 사용하여 텍스트, 이미지, 기하학적 및 의미론적 모달리티, 신경망 특징 맵 등 광범위한 입/출력 모달리티에 걸쳐 마스크 모델링 목표로 훈련합니다.4M의 핵심 능력 4M으로 훈련된 모델은 여러 가지 핵심 능력을 보여줍니다:다양한 비전 작업을 즉시(out of the box) 수행할 수 있습니다.보이지 않는 다운스트림 작업이나 새로운 입력 모달리티에 미세 조정 시 뛰어난 성능..

Paper Review 2025.06.10

ARTrackV2 논문 리뷰

ARTrackV2는 비디오 프레임 전반에 걸쳐 대상을 어디서 찾아야 할지(Localization)와 어떻게 외형을 묘사할지(Appearance analysis)라는 두 가지 핵심 추적 요소를 통합한 모델입니다. 이전 모델인 ARTrack의 개념을 확장하여, 객체의 궤적("읽어내는 것")과 외형("다시 말하는 것")을 자기회귀 방식(autoregressive manner)으로 "읽어내고 다시 말하는" 통합 생성 프레임워크를 도입합니다. 이 접근 방식은 이전 추정값을 바탕으로 움직임과 시각적 특징의 동시 진화(joint evolution)를 모델링하는 시간 연속적 방법론(time-continuous methodology)을 촉진합니다.ARTrackV2는 효율성과 단순성 면에서 두드러집니다. 효율성이 떨어지는..

Paper Review 2025.06.10

"A Discriminative Semantic Ranker for Question Retrieval" DenseTrans 리뷰

논문의 배경 및 문제점커뮤니티 기반 질의응답(CQA) 서비스(예: WikiAnswers, Quora, Stack Overflow)에서 핵심 작업 중 하나는 저장된 저장소에서 유사한 질문을 검색하는 것입니다. 효율성과 효과성의 균형을 맞추기 위해 질문 검색 시스템은 일반적으로 다단계 랭커(multi-stage rankers)로 구현됩니다. 첫 번째 단계 랭커는 대규모 저장소에서 잠재적으로 관련성이 있는 질문들을 효율적으로 리콜(recall)하는 것을 목표로 하며, 이후 단계들은 검색된 결과들을 다시 랭킹(re-ranking)합니다.대부분의 기존 질문 검색 연구는 주로 재랭킹 단계에 초점을 맞추었으며, 첫 번째 단계 랭커는 전통적인 용어 기반(term-based) 방법에 의존했습니다 (예: TF-IDF, B..

Paper Review 2025.06.10

"TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation" 리뷰

이 논문은 의료 영상 분할(Medical Image Segmentation)을 위한 새로운 아키텍처인 TransUNet을 제안합니다. 의료 영상 분할은 질병 진단 및 치료 계획에 필수적인 전제 조건으로 여겨집니다.기존 방법의 한계:CNN(Convolutional Neural Network) 기반 방법: FCN(Fully Convolutional Networks), 특히 U-Net과 같은 U자형 아키텍처는 의료 영상 분할 분야에서 지배적이었고 상당한 성공을 거두었습니다. 자기공명(MR) 영상의 심장 분할, 컴퓨터 단층 촬영(CT) 영상의 장기 분할, 대장 내시경 영상의 용종 분할 등 다양한 의료 애플리케이션에서 성공적으로 사용되었습니다.하지만 CNN 기반 접근 방식은 컨볼루션 연산의 내재적 지역성(intr..

Paper Review 2025.06.10

SGGRL - "Multi-Modal Representation Learning for Molecular Property Prediction: Sequence, Graph, Geometry" 리뷰

이 논문은 분자 속성 예측 작업을 위한 새로운 다중 모달 분자 표현 학습 모델인 SGGRL을 제안합니다. 분자 속성 예측은 신약 개발 및 설계 과정에서 매우 중요한 역할을 합니다. 전통적인 실험 방법은 비용이 많이 들고 시간이 오래 걸리기 때문에 최근에는 기계 학습, 특히 딥 러닝 기반의 분자 속성 예측 방법이 주목받고 있습니다. 이러한 방법에서 분자 표현 학습은 성능의 핵심 요소입니다.기존에는 시퀀스 기반, 그래프 기반, 기하 기반 등 단일 모달리티에 초점을 맞춘 분자 표현 학습 방법들이 제안되었습니다.시퀀스 기반 방법은 분자를 SMILES (Simplified Molecular Input Line Entry System) 문자열로 표현하고, 자연어 처리 분야의 기술을 활용하여 각 문자열의 특성을 추출..

Paper Review 2025.06.10

Efficient Audio Transformer (EAT) 논문 리뷰

이 논문은 레이블되지 않은 오디오로부터 좋은 표현(representations)을 학습하는 것을 목표로 하는 오디오 자기 지도 학습(SSL) 사전 학습 분야의 발전에 관한 내용을 다루고 있습니다. 오디오 SSL은 자연어 처리, 컴퓨터 비전, 음성 처리 분야의 성공에 영감을 받아 등장했으며, 방대한 양의 레이블되지 않은 데이터를 활용하여 데이터 특성을 효과적으로 학습하는 강점을 가지고 있습니다.그러나 기존 오디오 SSL 모델들은 사전 학습 과정에서 막대한 계산 요구량이라는 상당한 장벽에 직면해 있었습니다. Audio-MAE와 같은 접근 방식은 높은 마스크 비율을 사용하여 인코딩 효율성을 높이려 했지만, 복잡한 디코더가 필요하여 프로세스가 길어지는 경우가 많았습니다. BEATs 같은 다른 모델들은 학습 작업..

Paper Review 2025.06.10

"ChemRL-GEM: Geometry Enhanced Molecular Representation Learning for Property Prediction" 리뷰

이 논문은 분자 특성 예측이라는 중요한 과제를 해결하기 위한 새로운 분자 표현 학습 방법인 ChemRL-GEM을 제안합니다. 분자 특성 예측은 신약 및 재료 산업에서 분자를 평가, 선택, 생성하는 데 매우 중요한 근본적인 작업입니다. 최근 그래프 신경망(GNN)이 분자 표현 학습에 유망한 성능을 보였으며, 레이블이 부족한 분자 문제를 극복하기 위해 자체 지도 학습 방법을 활용한 사전 학습도 성공적으로 적용되었습니다.문제점: 기존 GNN 및 사전 학습 전략은 분자를 원자와 결합의 위상학적 그래프 데이터로만 취급하며, 분자의 3차원(3D) 공간 구조, 즉 분자 기하 정보를 충분히 활용하지 못했습니다. 하지만 분자 기하 정보는 분자의 물리적, 화학적, 생물학적 특성을 결정하는 데 가장 중요한 요소 중 하나입니..

Paper Review 2025.06.10

"BatchSampler: Sampling Mini-Batches for Contrastive Learning in Vision, Language, and Graphs" 리뷰

이 논문은 인-배치(in-batch) 대조 학습(contrastive learning)에서 미니 배치(mini-batch) 샘플링 문제를 다루며, 모델 성능 향상을 위한 BatchSampler라는 새로운 방법을 제안합니다.인-배치 대조 학습의 맥락대조 학습은 컴퓨터 비전(vision), 자연어 처리(language), 그래프(graphs) 등 다양한 데이터 영역에서 널리 사용되는 자기 지도 표현 학습(self-supervised representation learning) 전략입니다. 그 핵심은 의미적으로 유사한 인스턴스(instances)는 가깝게, 의미적으로 다른 인스턴스는 표현 공간에서 멀어지도록 학습하는 것입니다.인-배치 대조 학습에서는 미니 배치 내의 모든 인스턴스가 다른 인스턴스에 대한 부정 ..

Paper Review 2025.06.10

CLLP (Learning Transferable Visual Models From Natural Language Supervision) 리뷰

이 논문은 자연어 지도학습을 통해 범용적인 시각 모델인 CLIP (Contrastive Language-Image Pre-training)을 학습하는 접근 방식을 제시합니다. 기존의 컴퓨터 비전 시스템은 미리 정해진 고정된 객체 범주를 예측하도록 훈련되며, 이는 추가적인 시각적 개념을 지정하기 위해 추가적인 레이블링된 데이터가 필요하다는 점에서 일반성과 유용성을 제한합니다. 이미지에 대한 원본 텍스트로부터 직접 학습하는 것은 훨씬 더 광범위한 지도학습 소스를 활용하는 유망한 대안입니다. 이 논문은 이미지와 캡션의 쌍을 예측하는 간단한 사전 학습 작업이 인터넷에서 수집된 4억 개의 (이미지, 텍스트) 쌍 데이터셋에서 SOTA 이미지 표현을 처음부터 학습하는 효율적이고 확장 가능한 방법임을 보여줍니다. 사전..

Paper Review 2025.06.10