AI & Statistics Lab

Paper Review 35

SGGRL - "Multi-Modal Representation Learning for Molecular Property Prediction: Sequence, Graph, Geometry" 리뷰

이 논문은 분자 속성 예측 작업을 위한 새로운 다중 모달 분자 표현 학습 모델인 SGGRL을 제안합니다. 분자 속성 예측은 신약 개발 및 설계 과정에서 매우 중요한 역할을 합니다. 전통적인 실험 방법은 비용이 많이 들고 시간이 오래 걸리기 때문에 최근에는 기계 학습, 특히 딥 러닝 기반의 분자 속성 예측 방법이 주목받고 있습니다. 이러한 방법에서 분자 표현 학습은 성능의 핵심 요소입니다.기존에는 시퀀스 기반, 그래프 기반, 기하 기반 등 단일 모달리티에 초점을 맞춘 분자 표현 학습 방법들이 제안되었습니다.시퀀스 기반 방법은 분자를 SMILES (Simplified Molecular Input Line Entry System) 문자열로 표현하고, 자연어 처리 분야의 기술을 활용하여 각 문자열의 특성을 추출..

Paper Review 2025.06.10

Efficient Audio Transformer (EAT) 논문 리뷰

이 논문은 레이블되지 않은 오디오로부터 좋은 표현(representations)을 학습하는 것을 목표로 하는 오디오 자기 지도 학습(SSL) 사전 학습 분야의 발전에 관한 내용을 다루고 있습니다. 오디오 SSL은 자연어 처리, 컴퓨터 비전, 음성 처리 분야의 성공에 영감을 받아 등장했으며, 방대한 양의 레이블되지 않은 데이터를 활용하여 데이터 특성을 효과적으로 학습하는 강점을 가지고 있습니다.그러나 기존 오디오 SSL 모델들은 사전 학습 과정에서 막대한 계산 요구량이라는 상당한 장벽에 직면해 있었습니다. Audio-MAE와 같은 접근 방식은 높은 마스크 비율을 사용하여 인코딩 효율성을 높이려 했지만, 복잡한 디코더가 필요하여 프로세스가 길어지는 경우가 많았습니다. BEATs 같은 다른 모델들은 학습 작업..

Paper Review 2025.06.10

"ChemRL-GEM: Geometry Enhanced Molecular Representation Learning for Property Prediction" 리뷰

이 논문은 분자 특성 예측이라는 중요한 과제를 해결하기 위한 새로운 분자 표현 학습 방법인 ChemRL-GEM을 제안합니다. 분자 특성 예측은 신약 및 재료 산업에서 분자를 평가, 선택, 생성하는 데 매우 중요한 근본적인 작업입니다. 최근 그래프 신경망(GNN)이 분자 표현 학습에 유망한 성능을 보였으며, 레이블이 부족한 분자 문제를 극복하기 위해 자체 지도 학습 방법을 활용한 사전 학습도 성공적으로 적용되었습니다.문제점: 기존 GNN 및 사전 학습 전략은 분자를 원자와 결합의 위상학적 그래프 데이터로만 취급하며, 분자의 3차원(3D) 공간 구조, 즉 분자 기하 정보를 충분히 활용하지 못했습니다. 하지만 분자 기하 정보는 분자의 물리적, 화학적, 생물학적 특성을 결정하는 데 가장 중요한 요소 중 하나입니..

Paper Review 2025.06.10

"BatchSampler: Sampling Mini-Batches for Contrastive Learning in Vision, Language, and Graphs" 리뷰

이 논문은 인-배치(in-batch) 대조 학습(contrastive learning)에서 미니 배치(mini-batch) 샘플링 문제를 다루며, 모델 성능 향상을 위한 BatchSampler라는 새로운 방법을 제안합니다.인-배치 대조 학습의 맥락대조 학습은 컴퓨터 비전(vision), 자연어 처리(language), 그래프(graphs) 등 다양한 데이터 영역에서 널리 사용되는 자기 지도 표현 학습(self-supervised representation learning) 전략입니다. 그 핵심은 의미적으로 유사한 인스턴스(instances)는 가깝게, 의미적으로 다른 인스턴스는 표현 공간에서 멀어지도록 학습하는 것입니다.인-배치 대조 학습에서는 미니 배치 내의 모든 인스턴스가 다른 인스턴스에 대한 부정 ..

Paper Review 2025.06.10

CLLP (Learning Transferable Visual Models From Natural Language Supervision) 리뷰

이 논문은 자연어 지도학습을 통해 범용적인 시각 모델인 CLIP (Contrastive Language-Image Pre-training)을 학습하는 접근 방식을 제시합니다. 기존의 컴퓨터 비전 시스템은 미리 정해진 고정된 객체 범주를 예측하도록 훈련되며, 이는 추가적인 시각적 개념을 지정하기 위해 추가적인 레이블링된 데이터가 필요하다는 점에서 일반성과 유용성을 제한합니다. 이미지에 대한 원본 텍스트로부터 직접 학습하는 것은 훨씬 더 광범위한 지도학습 소스를 활용하는 유망한 대안입니다. 이 논문은 이미지와 캡션의 쌍을 예측하는 간단한 사전 학습 작업이 인터넷에서 수집된 4억 개의 (이미지, 텍스트) 쌍 데이터셋에서 SOTA 이미지 표현을 처음부터 학습하는 효율적이고 확장 가능한 방법임을 보여줍니다. 사전..

Paper Review 2025.06.10

s3: You Don't Need That Much Data to Train a Search Agent via RL 논문 리뷰

주요 포인트연구는 s3 프레임워크를 제안하며, 이는 강화 학습(RL)을 통해 검색 에이전트를 효율적으로 훈련시켜 RAG 시스템의 성능을 향상시킵니다.s3는 2.4k 샘플만으로 기존 방법보다 우수한 성능을 달성하며, 검색과 생성을 분리해 모델 독립성을 제공합니다.실험 결과, 6개의 일반 QA와 5개의 의료 QA 벤치마크에서 s3가 뛰어난 성능을 보였고, 도메인 전이 가능성을 입증했습니다.한계로는 생성기 품질 의존성, 보상 계산 비용, 데이터 편향 가능성을 지적하며, 미래 연구 방향을 제시합니다.상세 리뷰 노트서론 및 배경"s3: You Don't Need That Much Data to Train a Search Agent via RL"라는 제목의 논문은 Pengcheng Jiang 외 여러 저자가 작성했..

Paper Review 2025.06.01

“Sufficient Context: A New Lens on Retrieval Augmented Generation Systems” 논문의 주요 내용

아래는 “Sufficient Context: A New Lens on Retrieval Augmented Generation Systems” 논문의 주요 내용을 정리한 후, 논문에서 제안한 선택적 생성(selective generation) 방법을 중심으로 파이썬 구현 예시를 제시한 코드입니다.논문 요약문제 제기 및 동기대형 언어모델(LLM)에 외부 컨텍스트를 제공하는 RAG(Retrieval Augmented Generation) 시스템은 사실성(factuality)을 크게 향상시키지만, 여전히 모델이 잘못된 답을 자신 있게 생성하거나 불필요한 정보에 주의를 빼앗기는 문제가 존재한다.이 오류의 원인이 “컨텍스트가 충분치 않아서”인지, “모델이 충분한 컨텍스트를 활용하지 못해서”인지 명확하지 않다.충분한..

Paper Review 2025.05.26

"CycleNet: 주기적 패턴 모델링을 통한 시계열 예측 향상" 논문 리뷰

1. 서론정확한 장기 시계열 예측(Long-Term Time Series Forecasting, LTSF)은 날씨 예측, 교통, 에너지 관리 등 다양한 분야에서 매우 중요한 역할을 수행하며, 조기 경보 및 사전 계획을 위한 통찰력을 제공합니다.1 단기 예측과는 달리, LTSF는 데이터의 장기적인 의존성을 파악해야 하는 본질적인 어려움을 내포하고 있습니다.2 즉, 장기 예측은 최근의 시간적 정보에만 의존할 수 없으며, 데이터 내에 존재하는 근본적인 장기 의존성 또는 안정적인 주기성을 이해하는 것이 중요합니다.1 많은 실제 시계열 데이터는 일별 전력 소비나 연간 날씨 패턴과 같이 예측 가능한 주기적인 행동을 나타내므로, 이러한 반복적인 패턴을 명시적으로 모델링하는 것은 장기 예측의 정확성을 크게 향상시킬 수..

Paper Review 2025.05.03

[Paper Review] Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval(Paul Primus, 2024)

paper : https://doi.org/10.48550/arXiv.2406.15897Introduction기존의 retrieval system은 전통적으로 dual-encoder를 사용해서 query(caption), audio를 각각 처리한 후 multimodal metric space에 share하는 방식이었다.이후 audio와 query의 distance를 측정하여 ranking 해 찾는 방식이 방식을 content-based retrieval이라고 한다.content-based retrieval의 성능을 향상 시키기 위한 시도가 여러가지 있었는데 아래와 같다.① 사전학습된 모델 사용② augmentation③ 인공 캡션 생성이 논문에서는 새로운 hybrid method를 제안하는데 hybrid..

Paper Review 2024.08.09

[Paper Review] Adapting a ConvNeXt model to audio classification on AudioSet

paper: https://arxiv.org/abs/2306.00830 Adapting a ConvNeXt model to audio classification on AudioSetIn computer vision, convolutional neural networks (CNN) such as ConvNeXt, have been able to surpass state-of-the-art transformers, partly thanks to depthwise separable convolutions (DSC). DSC, as an approximation of the regular convolution, has made CNNs marxiv.org ConvNeXt 는 ‘A ConvNet for the 2..

Paper Review 2024.07.16