본문 바로가기

전체 글

(10)
[Paper Review] Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval(Paul Primus, 2024) paper : https://doi.org/10.48550/arXiv.2406.15897Introduction기존의 retrieval system은 전통적으로 dual-encoder를 사용해서 query(caption), audio를 각각 처리한 후 multimodal metric space에 share하는 방식이었다.이후 audio와 query의 distance를 측정하여 ranking 해 찾는 방식이 방식을 content-based retrieval이라고 한다.content-based retrieval의 성능을 향상 시키기 위한 시도가 여러가지 있었는데 아래와 같다.① 사전학습된 모델 사용② augmentation③ 인공 캡션 생성이 논문에서는 새로운 hybrid method를 제안하는데 hybrid..
[Paper Review] NoduleNet: Decoupled False Positive Reductionfor Pulmonary Nodule Detection and Segmentation paper : https://arxiv.org/abs/1907.11320 NoduleNet: Decoupled False Positive Reductionfor Pulmonary Nodule Detection and SegmentationPulmonary nodule detection, false positive reduction and segmentation represent three of the most common tasks in the computeraided analysis of chest CT images. Methods have been proposed for eachtask with deep learning based methods heavily favored recentarxiv.org..
[Paper Review] Adapting a ConvNeXt model to audio classification on AudioSet paper: https://arxiv.org/abs/2306.00830 Adapting a ConvNeXt model to audio classification on AudioSetIn computer vision, convolutional neural networks (CNN) such as ConvNeXt, have been able to surpass state-of-the-art transformers, partly thanks to depthwise separable convolutions (DSC). DSC, as an approximation of the regular convolution, has made CNNs marxiv.org ConvNeXt 는 ‘A ConvNet for the 2..
[Paper Review] TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation paper: https://arxiv.org/abs/2102.04306 TransUNet: Transformers Make Strong Encoders for Medical Image SegmentationMedical image segmentation is an essential prerequisite for developing healthcare systems, especially for disease diagnosis and treatment planning. On various medical image segmentation tasks, the u-shaped architecture, also known as U-Net, has become thearxiv.org TransUNet은 UNet의 이..
[Paper Review] DeiT: Training data-efficient image transformers & distillation through attention(Hugo Touvron, 2020) Paper link: https://arxiv.org/pdf/2012.12877.pdf Introduction DeiT는 2020년 12월 경에 나온 논문으로, ViT가 거대한 데이터셋에서만 유의미한 결과를 얻을 수 있다는 한계점을 해결하기 위해 데이터와 컴퓨팅 자원을 효율적으로 사용할 수 있는 knowledge distillation 기법을 통해 모델을 효율적으로 학습시키고자 했다. ImageNet1k 데이터셋으로 훈련된 CNN 기반의 분류 모델 efficientNet 모델과의 성능 비교 그래프 x축은 초당 처리된 이미지 수, y축은 정확도로 우측 상단에 위치한 모델의 성능이 좋음 같은 데이터로 학습하였을 때 CNN 기반의 EfficientNet보다도 distillation을 사용하여 자원을 효율적으로..
[Paper Review] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning paper: https://arxiv.org/abs/1602.07261 Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning Very deep convolutional networks have been central to the largest advances in image recognition performance in recent years. One example is the Inception architecture that has been shown to achieve very good performance at relatively low computational cost arxiv.org 논문은 incep..
[Paper Review] Xception : Deep Learning with Depthwise Separable Convolutions ( Francois Chollet, 2016 ) Xception : Deep Learning with Depthwise Separable ConvolutionsFrancois Chollet, Google, Inc논문 리뷰 : 중앙대학교 안익균원문 링크 : https://arxiv.org/abs/1610.02357이 문서는 논문 원본의 내용을 충실히 전달하고자 하는 목적으로 작성되었다.쉬운 이해를 위해 최대한 한국어로 작성했으며 추가적인 설명이 필요한 부분은 별도 조사를 통해 추가하였다. AbstractInception 모듈은 regular convolution과 depthwise separable convolution의 중간에 있는 모듈이라고 저자는 주장한다. Depthwise separable 모듈은 Inception 모듈의 tower(입력 특성 맵..
[Paper Review] DINO - Emerging Properties in Self-Supervised Vision Transformers (Mathilde Caron, 2021) References ICCV 2021. [Paper] [Github] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand Joulin Facebook AI Research | Inria | Sorbonne University 29 Apr 2021 Abstract Self-supervised learning이 ViT 분야에서 new property를 제공하는지? (CNN과 비교) → ViT에 Self-supervised Learning을 적용하여 그 효과를 확인함 Self-supervised methods가 ViT에 잘 작동함. 단순히 성능이 높을뿐만 아니라 2가지 이점이 존재함. sel..