AI & Statistics Lab

분류 전체보기 92

Convolutional Vision Transformer (CvT) 논문 리뷰

이 논문은 "CvT: Introducing Convolutions to Vision Transformers"라는 제목으로, 기존의 Vision Transformer (ViT) 아키텍처에 컨볼루션(Convolution) 연산을 도입하여 성능과 효율성을 개선한 새로운 아키텍처인 Convolutional vision Transformer (CvT)를 제안합니다. CvT의 목표는 CNN(Convolutional Neural Network)의 바람직한 특성(예: 이동, 스케일 및 왜곡 불변성)과 트랜스포머의 장점(예: 동적 어텐션, 전역 컨텍스트, 더 나은 일반화)을 결합하여 두 디자인의 최고를 이끌어내는 것입니다.1. 도입 및 배경트랜스포머는 최근 자연어 처리(NLP) 분야에서 광범위한 작업에 걸쳐 지배적인 위..

Paper Review 2025.06.15

"Training data-efficient image transformers & distillation through attention" DeiT 논문 리뷰

1. 서론 및 배경 (Introduction and Background) 최근 어텐션 기반 신경망이 이미지 분류와 같은 이미지 이해 작업에서 높은 성능을 보여주었습니다 [1]. 특히 비전 트랜스포머(Vision Transformer, ViT)는 이미지 분류 작업에 원시 이미지 패치를 입력으로 직접 적용하여 우수한 결과를 달성했습니다 [2, 3].그러나 기존의 고성능 비전 트랜스포머는 대규모 인프라를 사용하여 수억 개의 이미지로 사전 학습되어야 하므로, 그 채택이 제한적이었습니다 [1, 3, 4]. Dosovitskiy et al.의 연구 [5]에서는 트랜스포머가 "불충분한 양의 데이터로 학습할 때 잘 일반화되지 않는다"고 결론지었으며, 이러한 모델의 학습에는 광범위한 컴퓨팅 자원이 필요했습니다 [3].오..

Paper Review 2025.06.15

인공지능(AI)과 에너지의 연계에 관하여: 기회, 도전, 그리고 지속가능한 미래

인공지능(AI)과 에너지의 연계에 관하여: 기회, 도전, 그리고 지속가능한 미래I. 서론에너지 부문은 현대 사회의 근간을 이루며, 모든 산업과 일상생활에 필수적인 동력을 제공한다. 전력 생산, 송전, 배전, 소비의 각 단계에서 효율성, 신뢰성, 그리고 지속가능성 확보는 국가 경제와 국민 생활의 안정에 직결되는 중요한 과제이다.1 전 세계적으로 화석 연료 소비에 대한 우려가 증가하고 기후 변화에 대응하기 위한 탄소 순배출 제로(Net-Zero) 목표 달성의 압박이 커지면서, 에너지 시스템의 효율성과 친환경성 개선은 전례 없는 시급성을 띠고 있다.1이러한 배경 속에서 인공지능(AI)은 인간의 지능을 필요로 하는 작업을 수행할 수 있는 이론이자 소프트웨어로서, 기계가 학습, 추론, 새로운 환경에 적응할 수 있..

기타 2025.06.15

대한민국 주식시장의 문제점 분석 및 해결방안

대한민국 주식시장의 문제점 분석 및 해결방안서론대한민국의 주식시장은 경제 규모 대비 저평가되었다는 평가를 받고 있습니다. 반도체, 자동차, 배터리 등 세계적 경쟁력을 가진 산업과 삼성전자, 현대자동차 같은 글로벌 기업들이 있음에도 불구하고, 한국 증시는 주요국 대비 낮은 가치로 거래되는 현상이 지속되어 왔습니다. 이를 흔히 “코리아 디스카운트”라고 부르며, 배당 성향이 낮고 지배구조가 불투명하며 정보 비대칭이 존재하는 등의 구조적 문제들이 그 원인으로 지목됩니다. 이러한 문제들로 인해 개인 투자자들의 불안이 높아지고 외국인 투자의 영향을 크게 받는 시장구조가 형성되어 왔습니다. 이 글에서는 대한민국 주식시장의 전반적인 구조와 최근 이슈를 살펴보고, 주요 문제점들을 분석한 뒤, 정부·기업·개인 투자자 각 ..

기타 2025.06.13

대한민국 저출산 문제: 원인 분석과 해결 방안

대한민국 저출산 문제: 원인 분석과 해결 방안그림 1: 대한민국의 합계출산율 추이 (1960년대 ~ 2024년). 1960년대에는 여성 1인당 평균 5명이 넘는 자녀를 낳았으나, 2024년 현재 0.68명 수준까지 급감하였다. 이는 전 세계에서 전례 없이 빠른 속도로 진행된 저출산 추세로, 한국은 OECD 국가 중 유일하게 출산율이 0명대에 머물고 있다.I. 저출산 현황과 문제의 심각성한국의 저출산 문제는 인구 감소와 고령화라는 국가적 위기와 직결된다. 2022년 합계출산율은 0.78명으로 사상 최저치를 기록했고, 처음으로 연간 출생아 수가 25만 명을 밑돌았다. 1960년 합계출산율이 5.95명이었던 것과 비교하면 86% 이상 감소한 수치로, 전 세계 200여 개 국가 중 가장 가파른 감소율이다. 이처..

기타 2025.06.13

"4M: Massively Multimodal Masked Modeling" 논문 리뷰

논문의 목적 및 개요 이 논문은 4M이라는 다중 모달 학습 방식을 제안하며, 이는 비전 분야에서 대규모 언어 모델(LLMs)처럼 다양한 작업을 수행할 수 있는 범용적이고 확장 가능한 모델을 개발하기 위한 한 단계입니다. 현재 비전 모델은 단일 모달리티 및 작업에 고도로 특화된 경우가 많지만, 4M은 단일 통합 트랜스포머 인코더-디코더를 사용하여 텍스트, 이미지, 기하학적 및 의미론적 모달리티, 신경망 특징 맵 등 광범위한 입/출력 모달리티에 걸쳐 마스크 모델링 목표로 훈련합니다.4M의 핵심 능력 4M으로 훈련된 모델은 여러 가지 핵심 능력을 보여줍니다:다양한 비전 작업을 즉시(out of the box) 수행할 수 있습니다.보이지 않는 다운스트림 작업이나 새로운 입력 모달리티에 미세 조정 시 뛰어난 성능..

Paper Review 2025.06.10

ARTrackV2 논문 리뷰

ARTrackV2는 비디오 프레임 전반에 걸쳐 대상을 어디서 찾아야 할지(Localization)와 어떻게 외형을 묘사할지(Appearance analysis)라는 두 가지 핵심 추적 요소를 통합한 모델입니다. 이전 모델인 ARTrack의 개념을 확장하여, 객체의 궤적("읽어내는 것")과 외형("다시 말하는 것")을 자기회귀 방식(autoregressive manner)으로 "읽어내고 다시 말하는" 통합 생성 프레임워크를 도입합니다. 이 접근 방식은 이전 추정값을 바탕으로 움직임과 시각적 특징의 동시 진화(joint evolution)를 모델링하는 시간 연속적 방법론(time-continuous methodology)을 촉진합니다.ARTrackV2는 효율성과 단순성 면에서 두드러집니다. 효율성이 떨어지는..

Paper Review 2025.06.10

"A Discriminative Semantic Ranker for Question Retrieval" DenseTrans 리뷰

논문의 배경 및 문제점커뮤니티 기반 질의응답(CQA) 서비스(예: WikiAnswers, Quora, Stack Overflow)에서 핵심 작업 중 하나는 저장된 저장소에서 유사한 질문을 검색하는 것입니다. 효율성과 효과성의 균형을 맞추기 위해 질문 검색 시스템은 일반적으로 다단계 랭커(multi-stage rankers)로 구현됩니다. 첫 번째 단계 랭커는 대규모 저장소에서 잠재적으로 관련성이 있는 질문들을 효율적으로 리콜(recall)하는 것을 목표로 하며, 이후 단계들은 검색된 결과들을 다시 랭킹(re-ranking)합니다.대부분의 기존 질문 검색 연구는 주로 재랭킹 단계에 초점을 맞추었으며, 첫 번째 단계 랭커는 전통적인 용어 기반(term-based) 방법에 의존했습니다 (예: TF-IDF, B..

Paper Review 2025.06.10

"TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation" 리뷰

이 논문은 의료 영상 분할(Medical Image Segmentation)을 위한 새로운 아키텍처인 TransUNet을 제안합니다. 의료 영상 분할은 질병 진단 및 치료 계획에 필수적인 전제 조건으로 여겨집니다.기존 방법의 한계:CNN(Convolutional Neural Network) 기반 방법: FCN(Fully Convolutional Networks), 특히 U-Net과 같은 U자형 아키텍처는 의료 영상 분할 분야에서 지배적이었고 상당한 성공을 거두었습니다. 자기공명(MR) 영상의 심장 분할, 컴퓨터 단층 촬영(CT) 영상의 장기 분할, 대장 내시경 영상의 용종 분할 등 다양한 의료 애플리케이션에서 성공적으로 사용되었습니다.하지만 CNN 기반 접근 방식은 컨볼루션 연산의 내재적 지역성(intr..

Paper Review 2025.06.10

SGGRL - "Multi-Modal Representation Learning for Molecular Property Prediction: Sequence, Graph, Geometry" 리뷰

이 논문은 분자 속성 예측 작업을 위한 새로운 다중 모달 분자 표현 학습 모델인 SGGRL을 제안합니다. 분자 속성 예측은 신약 개발 및 설계 과정에서 매우 중요한 역할을 합니다. 전통적인 실험 방법은 비용이 많이 들고 시간이 오래 걸리기 때문에 최근에는 기계 학습, 특히 딥 러닝 기반의 분자 속성 예측 방법이 주목받고 있습니다. 이러한 방법에서 분자 표현 학습은 성능의 핵심 요소입니다.기존에는 시퀀스 기반, 그래프 기반, 기하 기반 등 단일 모달리티에 초점을 맞춘 분자 표현 학습 방법들이 제안되었습니다.시퀀스 기반 방법은 분자를 SMILES (Simplified Molecular Input Line Entry System) 문자열로 표현하고, 자연어 처리 분야의 기술을 활용하여 각 문자열의 특성을 추출..

Paper Review 2025.06.10