AI & Statistics Lab

분류 전체보기 92

VOTS 2025 챌린지 연구 계획

문제 정의와 요구 사항VOTS2025 메인 챌린지에서는 첫 프레임에 주어진 객체들의 세그멘테이션 마스크를 기반으로, 이후 프레임들에서 각 객체의 세그멘테이션 마스크를 정확하게 추적해야 합니다 (VOTS2025 Challenge | Submit). 이는 여러 객체를 장기간 안정적으로 추적해야 하는 다중 객체 세그멘테이션 추적 문제이며, 단일 객체 추적보다 난도가 높습니다. 높은 정확도의 마스크 예측과 견고한 다중 객체 추적 능력이 필수적이며, 객체의 잠시 부재나 가림(occlusion) 상황도 처리해야 합니다 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings). 아래에서는 이러한 요구 사항을 충족하기 위한 최신 기법들과 모델 구조를 제안합니다.최신 S..

Projects 2025.05.01

음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획

음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획연구 배경 및 기존 연구 요약자동 오디오 캡셔닝(Automated Audio Captioning, AAC)은 주어진 음원의 내용에 대한 자연어 설명을 생성하는 과제로서, 소리의 탐지와 분류뿐만 아니라 여러 소리 사건 간의 관계까지 요약해야 한다 ([2306.01533] Enhance Temporal Relations in Audio Captioning with Sound Event Detection). 기존 오디오 캡션 모델들은 소리 이벤트의 존재 여부나 종류에 대한 정확도를 높이기 위해 다양한 기법을 도입해 발전해왔다. 예를 들어, 사전 학습된 오디오 분류 모델이나 언어 생성 모델을 활용하면 캡션 성능이 크게 향상됨이 보고되었고 (..

Projects 2025.05.01

[Paper Review] Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval(Paul Primus, 2024)

paper : https://doi.org/10.48550/arXiv.2406.15897Introduction기존의 retrieval system은 전통적으로 dual-encoder를 사용해서 query(caption), audio를 각각 처리한 후 multimodal metric space에 share하는 방식이었다.이후 audio와 query의 distance를 측정하여 ranking 해 찾는 방식이 방식을 content-based retrieval이라고 한다.content-based retrieval의 성능을 향상 시키기 위한 시도가 여러가지 있었는데 아래와 같다.① 사전학습된 모델 사용② augmentation③ 인공 캡션 생성이 논문에서는 새로운 hybrid method를 제안하는데 hybrid..

Paper Review 2024.08.09

[Paper Review] NoduleNet: Decoupled False Positive Reductionfor Pulmonary Nodule Detection and Segmentation

paper : https://arxiv.org/abs/1907.11320 NoduleNet: Decoupled False Positive Reductionfor Pulmonary Nodule Detection and SegmentationPulmonary nodule detection, false positive reduction and segmentation represent three of the most common tasks in the computeraided analysis of chest CT images. Methods have been proposed for eachtask with deep learning based methods heavily favored recentarxiv.org..

카테고리 없음 2024.07.23

[Paper Review] Adapting a ConvNeXt model to audio classification on AudioSet

paper: https://arxiv.org/abs/2306.00830 Adapting a ConvNeXt model to audio classification on AudioSetIn computer vision, convolutional neural networks (CNN) such as ConvNeXt, have been able to surpass state-of-the-art transformers, partly thanks to depthwise separable convolutions (DSC). DSC, as an approximation of the regular convolution, has made CNNs marxiv.org ConvNeXt 는 ‘A ConvNet for the 2..

Paper Review 2024.07.16

[Paper Review] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

paper: https://arxiv.org/abs/2102.04306 TransUNet: Transformers Make Strong Encoders for Medical Image SegmentationMedical image segmentation is an essential prerequisite for developing healthcare systems, especially for disease diagnosis and treatment planning. On various medical image segmentation tasks, the u-shaped architecture, also known as U-Net, has become thearxiv.org TransUNet은 UNet의 이..

카테고리 없음 2024.04.17

[Paper Review] DeiT: Training data-efficient image transformers & distillation through attention(Hugo Touvron, 2020)

Paper link: https://arxiv.org/pdf/2012.12877.pdf Introduction DeiT는 2020년 12월 경에 나온 논문으로, ViT가 거대한 데이터셋에서만 유의미한 결과를 얻을 수 있다는 한계점을 해결하기 위해 데이터와 컴퓨팅 자원을 효율적으로 사용할 수 있는 knowledge distillation 기법을 통해 모델을 효율적으로 학습시키고자 했다. ImageNet1k 데이터셋으로 훈련된 CNN 기반의 분류 모델 efficientNet 모델과의 성능 비교 그래프 x축은 초당 처리된 이미지 수, y축은 정확도로 우측 상단에 위치한 모델의 성능이 좋음 같은 데이터로 학습하였을 때 CNN 기반의 EfficientNet보다도 distillation을 사용하여 자원을 효율적으로..

Paper Review 2024.04.15

[Paper Review] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

paper: https://arxiv.org/abs/1602.07261 Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning Very deep convolutional networks have been central to the largest advances in image recognition performance in recent years. One example is the Inception architecture that has been shown to achieve very good performance at relatively low computational cost arxiv.org 논문은 incep..

카테고리 없음 2024.04.14

[Paper Review] Xception : Deep Learning with Depthwise Separable Convolutions ( Francois Chollet, 2016 )

Xception : Deep Learning with Depthwise Separable ConvolutionsFrancois Chollet, Google, Inc논문 리뷰 : 중앙대학교 안익균원문 링크 : https://arxiv.org/abs/1610.02357이 문서는 논문 원본의 내용을 충실히 전달하고자 하는 목적으로 작성되었다.쉬운 이해를 위해 최대한 한국어로 작성했으며 추가적인 설명이 필요한 부분은 별도 조사를 통해 추가하였다. AbstractInception 모듈은 regular convolution과 depthwise separable convolution의 중간에 있는 모듈이라고 저자는 주장한다. Depthwise separable 모듈은 Inception 모듈의 tower(입력 특성 맵..

Paper Review 2024.04.14

[Paper Review] DINO - Emerging Properties in Self-Supervised Vision Transformers (Mathilde Caron, 2021)

References ICCV 2021. [Paper] [Github] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand Joulin Facebook AI Research | Inria | Sorbonne University 29 Apr 2021 Abstract Self-supervised learning이 ViT 분야에서 new property를 제공하는지? (CNN과 비교) → ViT에 Self-supervised Learning을 적용하여 그 효과를 확인함 Self-supervised methods가 ViT에 잘 작동함. 단순히 성능이 높을뿐만 아니라 2가지 이점이 존재함. sel..

Paper Review 2024.03.18