본문 바로가기

Paper Review

(7)
[Paper Review] Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval(Paul Primus, 2024) paper : https://doi.org/10.48550/arXiv.2406.15897Introduction기존의 retrieval system은 전통적으로 dual-encoder를 사용해서 query(caption), audio를 각각 처리한 후 multimodal metric space에 share하는 방식이었다.이후 audio와 query의 distance를 측정하여 ranking 해 찾는 방식이 방식을 content-based retrieval이라고 한다.content-based retrieval의 성능을 향상 시키기 위한 시도가 여러가지 있었는데 아래와 같다.① 사전학습된 모델 사용② augmentation③ 인공 캡션 생성이 논문에서는 새로운 hybrid method를 제안하는데 hybrid..
[Paper Review] Adapting a ConvNeXt model to audio classification on AudioSet paper: https://arxiv.org/abs/2306.00830 Adapting a ConvNeXt model to audio classification on AudioSetIn computer vision, convolutional neural networks (CNN) such as ConvNeXt, have been able to surpass state-of-the-art transformers, partly thanks to depthwise separable convolutions (DSC). DSC, as an approximation of the regular convolution, has made CNNs marxiv.org ConvNeXt 는 ‘A ConvNet for the 2..
[Paper Review] DeiT: Training data-efficient image transformers & distillation through attention(Hugo Touvron, 2020) Paper link: https://arxiv.org/pdf/2012.12877.pdf Introduction DeiT는 2020년 12월 경에 나온 논문으로, ViT가 거대한 데이터셋에서만 유의미한 결과를 얻을 수 있다는 한계점을 해결하기 위해 데이터와 컴퓨팅 자원을 효율적으로 사용할 수 있는 knowledge distillation 기법을 통해 모델을 효율적으로 학습시키고자 했다. ImageNet1k 데이터셋으로 훈련된 CNN 기반의 분류 모델 efficientNet 모델과의 성능 비교 그래프 x축은 초당 처리된 이미지 수, y축은 정확도로 우측 상단에 위치한 모델의 성능이 좋음 같은 데이터로 학습하였을 때 CNN 기반의 EfficientNet보다도 distillation을 사용하여 자원을 효율적으로..
[Paper Review] Xception : Deep Learning with Depthwise Separable Convolutions ( Francois Chollet, 2016 ) Xception : Deep Learning with Depthwise Separable ConvolutionsFrancois Chollet, Google, Inc논문 리뷰 : 중앙대학교 안익균원문 링크 : https://arxiv.org/abs/1610.02357이 문서는 논문 원본의 내용을 충실히 전달하고자 하는 목적으로 작성되었다.쉬운 이해를 위해 최대한 한국어로 작성했으며 추가적인 설명이 필요한 부분은 별도 조사를 통해 추가하였다. AbstractInception 모듈은 regular convolution과 depthwise separable convolution의 중간에 있는 모듈이라고 저자는 주장한다. Depthwise separable 모듈은 Inception 모듈의 tower(입력 특성 맵..
[Paper Review] DINO - Emerging Properties in Self-Supervised Vision Transformers (Mathilde Caron, 2021) References ICCV 2021. [Paper] [Github] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand Joulin Facebook AI Research | Inria | Sorbonne University 29 Apr 2021 Abstract Self-supervised learning이 ViT 분야에서 new property를 제공하는지? (CNN과 비교) → ViT에 Self-supervised Learning을 적용하여 그 효과를 확인함 Self-supervised methods가 ViT에 잘 작동함. 단순히 성능이 높을뿐만 아니라 2가지 이점이 존재함. sel..
[Paper Review] Self-Supervised_Pre-Training of Swin Transformers for 3D Medical Image Analysis (Yucheng Tang, 2022) Paper : https://openaccess.thecvf.com/content/CVPR2022/papers/Tang_Self-Supervised_Pre-Training_of_Swin_Transformers_for_3D_Medical_Image_Analysis_CVPR_2022_paper.pdf 2022 CVPR, IEEE published 2021년에 ViT 의 모델 중 하나인 Swin Transformers와 SSL 을 연관지어 발전시킨 논문들이 정말 많았으며, 본 논문도 그 중 하나임 Background : UNETR UNETR은 3D UNET의 Encoder 경로를 Transformer 구조로 대체한 모델 Transformer는 특성 상 Input과 Output Shape이 같으므로, Skip ..
[Paper Review] ChemRL-GEM: Geometry Enhanced Molecular Representation Learning for Property Prediction (Xiaomin Fang, 2022) [Introduction] Molecular Representation Learning (분자 표현학습)을 위해 'GNN' (Graph Neural Network)이 많이 쓰인다. GNN 이란, 분자의 원자(노드)와 결합(엣지)을 그래프로 취급하고, 각 원자가 이웃하는 다른 원자들에게 메시지를 전파하는 방식이다. GNN이 아직 풀지 못한 점이 있다. 1. 원자의 topology(위상정보)만 해독할 수 있다. 2. 분자의 geometry info(기하정보)를 반영하지 않는다. → 대표적인 예시 : 결합각(bond-angle) 분자의 특성을 결성하는 데 있어 분자의 기하 정보는 매우 중요한 역할을 한다. 아래의 사진을 보자. 두 분자는 같은 원자들(CI, C, H)로 구성되어 있지만, 결합각도가 왼쪽은 12..