문제 정의와 요구 사항
VOTS2025 메인 챌린지에서는 첫 프레임에 주어진 객체들의 세그멘테이션 마스크를 기반으로, 이후 프레임들에서 각 객체의 세그멘테이션 마스크를 정확하게 추적해야 합니다 (VOTS2025 Challenge | Submit). 이는 여러 객체를 장기간 안정적으로 추적해야 하는 다중 객체 세그멘테이션 추적 문제이며, 단일 객체 추적보다 난도가 높습니다. 높은 정확도의 마스크 예측과 견고한 다중 객체 추적 능력이 필수적이며, 객체의 잠시 부재나 가림(occlusion) 상황도 처리해야 합니다 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings). 아래에서는 이러한 요구 사항을 충족하기 위한 최신 기법들과 모델 구조를 제안합니다.
최신 SOTA 추적 기법 추천 및 장단점
VOTS2025 문제에 적합한 최신 추적 기법들은 크게 영상 객체 세그멘테이션 기반 방법과 바운딩 박스 기반 추적+세그멘테이션 방법으로 나눌 수 있습니다. 각각 대표적인 SOTA(State-of-the-Art) 기법과 그 장단점을 정리하면 다음과 같습니다.
추적 기법 구성 및 특징 장점 단점
DeAOT 기반 VOS(Associating Objects with Transformers 계열) | Transformer 기반 영상 객체 세그멘테이션(VOS) 모델. 첫 프레임 마스크를 입력 받아 메모리뱅크(과거 프레임 특징)를 통해 현재 프레임 다중 객체 마스크를 예측 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results). | - 마스크 예측 정확도 매우 높음 (픽셀 단위까지 세밀) (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results)- 다중 객체 동시 처리에 효과적 (각 객체 임베딩으로 ID 구분)- 전역 탐색으로 큰 움직임이나 화면 이탈 후 재진입 객체도 포착 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results) | - 연산량 및 메모리 사용 매우 큼 (복잡한 Transformer+메모리 구조)- 객체 수 많을수록 속도 저하- 보이지 않던 객체의 재발견(re-detection)을 위한 별도 모듈 필요 가능 |
DMAOT (개선된 DeAOT) | 기존 AOT/DeAOT의 메모리 관리 최적화 버전. 프레임별 메모리 대신 객체별 장기 메모리를 저장하여 장기간 추적 성능 향상 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results). | - 객체별로 기억하여 장기 추적 강화 (재등장 시 빠른 ID 연결) (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results)- VOTS2023 우승 수준 정확도 (3% 향상, Q≈0.636) (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results) | - DeAOT와 유사한 복잡도 (대형 모델)- 구현 난이도 높음 (메모리 모듈 복잡)- 실시간 처리 어려움 |
STARK/MixFormer + SAM(트랜스포머 SOT + 세그멘테이션) | STARK (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results)나 MixFormer (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results)와 같은 Transformer 기반 단일 객체 추적기로 각 객체의 바운딩 박스를 예측하고, SAM으로 해당 박스의 마스크를 생성/정제. | - 바운딩 박스 추적 성능 우수: 큰 이동/회전에 강인 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results)- SAM을 통한 고품질 마스크 획득: 대규모 학습으로 어떤 객체도 정밀 분할 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results)- 객체 수 적을 때 정확도 매우 높음 (VOTS 참가자들도 소수 객체 시 활용) (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results) | - SAM 모델이 매우 거대하여 속도 느림- 객체별 개별 추적 필요: 다수 객체 시 병렬 처리 부담- 바운딩 박스 오류 시 SAM이 엉뚱한 부분 세그멘테이션 위험 |
DiMP/TransT + AlphaRefine(기존 SOT + 마스크 정제) | DiMP, TransT 등 기존 SOT 추적기 출력의 bounding box를 Alpha-Refine 모듈로 정제하여 세그멘테이션 생성 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results) (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results). AlphaRefine는 픽셀단위 상관관계와 코너 예측 헤드, 보조 마스크 헤드로 구성된 정제 모듈 (Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation). | - 경량 정제모듈로 추적기 출력 정확도 큰 폭 향상 (Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation) (Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation)- SOT+AR 조합은 실시간에 가까운 속도도 가능 (DiMP+AR 등) (Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation)- 구현이 비교적 간단 (플러그인 형태) | - 일반화 제한: SAM 만큼 다양한 객체 형태 대응 어려움 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings)- 추적기 자체가 오래된 경우 SOTA 대비 성능 열위- 다중 객체 동시 추적이 아니므로 객체간 상호작용 미고려 |
이외에도 STCN, XMem 등 메모리 기반 세그멘테이션 네트워크들도 최첨단 정확도를 보여주는 후보입니다. 예를 들어 XMem은 효율적인 메모리 관리로 DAVIS 영상 분할 챌린지에서 우수한 성적을 거둔 바 있습니다. 다만 AOT 계열(DMAOT 등)이 VOTS에서 이미 강력하게 활용되었고 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results), SAM과의 조합 기법(HQTrack 등)이 검증되었기에 본 챌린지에서는 위 추천 기법들을 우선 고려하는 것이 좋습니다.
✅ 요약: 메모리 영상분할 방식 (DeAOT/DMAOT 등)은 다객체 마스크 정확도가 뛰어나고 트랜스포머 SOT + 세그멘테이션 방식 (STARK/MixFormer+SAM 등)은 큰 이동에도 강인하며 세밀한 마스크를 얻을 수 있습니다. 또한 이를 혼합한 하이브리드 방식도 성과가 입증되었으므로, 상황에 맞게 선택하거나 결합하면 좋겠습니다 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results) ([2307.13974] Tracking Anything in High Quality).
권장 백본 네트워크 선택
챌린지 성능을 높이려면 강력한 특성 추출을 위한 백본 선택이 중요합니다. 권장되는 백본으로는 대규모 학습된 비전 트랜스포머(ViT 계열)나 스윈 트랜스포머(Swin), 그리고 최신 ConvNet인 ConvNeXt/InternImage 등을 고려할 수 있습니다:
- 스윈 트랜스포머 (Swin Transformer) – 계층적 구조의 ViT로 다중 스케일 특징 표현에 능합니다. 객체 크기 변화를 잘 포착하고, Detection/Segmentation에서 입증된 성능으로 여러 최신 추적기에도 사용되었습니다 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results). ImageNet 등에서 선행 학습된 Swin-L 같은 대형 모델을 쓰면 작은 객체 디테일까지 잡아낼 수 있습니다.
- 비전 트랜스포머 (ViT) – 강력한 전역 컨텍스트 파악 능력이 장점입니다. VOTS2023 참가자도 ViT 기반 인코더를 사용하여 시퀀스 상의 장기 의존성을 효과적으로 모델링하였고 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results), 성능 향상을 보였습니다. 다만 ViT는 다중 크기 출력이 기본 제공되지 않아 FPN 등의 보완이 필요할 수 있습니다.
- ConvNeXt 및 InternImage – ConvNeXt는 CNN 기반의 최신 백본으로, 트랜스포머급 정확도를 내면서도 구현이 수월합니다. 특히 InternImage는 대규모 CNN(InternImage-T 등)으로 변형 합성곱을 통해 객체 식별 능력을 높인 백본으로 보고되고 (Paper Review: Tracking Anything in High Quality | by Andrew Lukyanenko | Medium), 한 참가자는 InternImage-T를 백본으로 활용해 세그멘테이션 성능을 끌어올렸습니다 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings). 트랜스포머보다 메모리 효율이 좋아 다중 객체에도 유리할 수 있습니다.
→ 결론: 자원 제한이 없으므로 Swin-L/ViT-Huge 등 최상급 백본 사용을 권장합니다. 스윈 트랜스포머 계열은 다중 스케일 정보를 제공해 세그멘테이션 정밀도에 유리하며, ViT 계열은 거대한 사전학습으로 복잡한 장면 일반화에 강점이 있습니다. 대안으로 최신 ConvNet인 ConvNeXt나 InternImage를 활용하면 연산 효율성을 유지하며 높은 정확도를 기대할 수 있습니다. 어떤 백본이든 COCO, YouTube-VOS 등 대규모 데이터로 추가 학습한다면 성능 향상에 도움이 될 것입니다 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results).
바운딩 박스 기반 추적기의 세그멘테이션 정제 기법
바운딩 박스만 예측하는 추적기를 사용할 경우, 이를 픽셀 단위 마스크로 변환하거나 정교화하는 단계가 필요합니다. 이러한 Segmentation Refinement를 위해 현 시점에서 가장 주목받는 두 가지 접근을 소개합니다:
- Segment Anything Model (SAM) – Meta AI가 발표한 초거대 분할 모델로, Bounding box 또는 포인트를 입력 프롬프트로 주면 대응 객체의 마스크를 출력합니다. SAM은 11억 개 이상의 마스크로 학습되어 거의 제로샷에 가까운 범용 분할 능력을 지녔습니다 (Paper Review: Tracking Anything in High Quality | by Andrew Lukyanenko | Medium). VOTS2023 상위권 팀들도 SAM을 정제 모듈로 활용했는데, 트래커가 예측한 바운딩 박스를 SAM에 입력하여 고품질 마스크를 얻었습니다 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results) (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results). 이 접근은 각 모델의 강점을 결합해 다양한 상황에서 높은 성능을 보였고, 복잡한 경계도 세밀히 분할하는 장점이 있습니다. 다만 SAM 자체가 매우 크고 느리며, 복잡한 구조(예: 가느다란 물체)에 대해서는 가끔 실패하는 경우가 보고되어 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings), 실제 적용 시 HQ-SAM과 같은 개선판을 쓰거나 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings), SAM 출력 결과를 선택적으로 사용할 필요가 있습니다 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings) ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings).
- Alpha-Refine (AlphaRef) – 추적 특화 경량 마스크 정제 모듈로, CVPR2021에서 제안되었습니다. 기본 추적기의 결과(BB)를 받아 픽셀 단위 상관관계를 이용해 대상 객체의 세부 경계를 추출하고, 코너 예측 + 보조 마스크 헤드로 박스를 세밀 조정합니다 (Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation). 여러 SOT에 플러그인하여 성능을 크게 높였으며, 추적기에 거의 제로에 가까운 추가 지연만을 유발할 정도로 가볍습니다 (Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation). 실제 VOT 챌린지에서도 DiMP, KYS 등의 추적기에 AlphaRefine을 붙인 버전들이 실시간에 가까운 속도로 우수한 정확도를 보여주었습니다 (Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation). AlphaRefine의 장점은 경량/고속이고 추적기와 독립적으로 학습될 수 있다는 점이며, 단점은 SAM처럼 방대한 범용 데이터를 학습한 모델이 아니라 특정 추적 환경에 최적화되어 예상 밖의 객체 형태엔 유연성이 떨어질 수 있음입니다.
또한 Mask2Former나 CondInst를 활용하여, 추적기가 예측한 박스 내 영역을 Instance Segmentation 방식으로 세분화하는 방안도 생각해볼 수 있습니다. 그러나 이러한 방법들은 별도 학습이 필요하며 SAM/AlphaRef처럼 공개된 범용 모델의 편의성이 없으므로, 대회 기간 내 바로 적용하기에는 비추천입니다.
✅ 따라서, Bounding Box 기반으로 갈 경우 1) 정확도가 최우선이면 SAM(또는 HQ-SAM 변형)으로 마스크를 얻고, 2) 속도와 통합 용이성을 원하면 AlphaRefine으로 정제하는 것을 권장합니다. 실제로 SAM+추적기 조합은 VOTS2023 2위를 차지할 정도로 효과적이었고 ([2307.13974] Tracking Anything in High Quality), AlphaRefine은 다수의 기존 추적기를 강자로 탈바꿈시킨 검증된 모듈입니다 (Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation).
다중 객체 추적(MOT)과의 연계 전략
다중 객체 세그멘테이션 추적에서는 ID 혼동 없이 각 객체를 지속적으로 추적하는 것이 핵심입니다. 이를 위해 기존 MOT 기법을 접목하면 다음과 같은 성능 향상을 도모할 수 있습니다:
- 객체 재식별(Re-ID) 및 재탐색: 한 객체가 일시적으로 보이지 않거나 다른 객체 뒤에 가려졌을 때, 해당 객체를 잃지 않고 재발견하는 메커니즘이 필요합니다 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings). 추적기가 특정 프레임에서 객체 마스크를 내지 못하면, 메모리 뱅크에 저장된 해당 객체 임베딩을 활용해 프레임 전역을 탐색하거나, 별도의 객체 탐지기/단일객체 추적기로 해당 객체를 찾는 전략을 적용할 수 있습니다. 예를 들어, MixFormer와 같은 SOT를 보조적으로 사용하여 작은 물체가 사라졌을 때 위치를 재추정하고 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results), 다시 세그멘테이션 모듈이 정교한 마스크를 그리게 할 수 있습니다. 또한 각 객체별로 전용 특징 템플릿을 유지하고, 유클리드 거리나 코사인 유사도로 프레임 내 후보 세그먼트와 매칭함으로써 ID 재확인을 수행할 수도 있습니다.
- ID 유지 및 스위칭 방지: 프레임이 진행됨에 따라 객체들의 상대적 위치 변화나 교차로 인해 ID가 뒤바뀌는 현상을 방지해야 합니다. 이를 위해 다중 객체 연관 알고리즘(예: Hungarian Algorithm 등)을 활용하여, 현재 프레임에서 예측된 마스크들을 이전 프레임의 ID들과 최대 매칭시킬 수 있습니다. 만약 세그멘테이션 기반 추적을 사용하고 있다면, 각 객체 마스크에 고유한 임베딩이나 태그를 부여하여 네트워크가 혼동하지 않도록 학습시킵니다. 실제 AOT 계열 모델은 객체별 임베딩으로 여러 객체를 동시에 처리하면서 ID 혼동을 억제합니다 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results). 추가로, Kalman 필터 기반 예측으로 각 객체의 위치를 단기 예측하고, 예측 위치 주변에서만 탐색하도록 하면 객체 간 간섭을 줄일 수 있습니다.
- 오큘루전(Occlusion) 처리: 둘 이상의 객체가 겹치는 경우 한 객체의 마스크가 다른 객체를 덮거나 추적기가 잘못된 객체를 따라가는 문제가 생길 수 있습니다. 이를 해결하기 위해 계층적 마스크 출력(예: 깊이 순서에 따라 보이는 객체 우선 마스크)이나 마스크 합성 후 후처리를 고려합니다. 구체적으로, 한 프레임에서 여러 마스크가 예측되면 중첩 영역을 검사하여, 만약 마스크들이 크게 겹치면 이전 프레임의 위치 관계를 참고하여 앞뒤를 결정하거나, 겹친 영역은 두 객체 모두에 잠정적으로 포함시키지 않는 등의 정책을 적용할 수 있습니다. 이러한 처리 논리는 MOT의 상호 occlusion 처리 개념과 유사합니다.
- 롱텀 시나리오 대비: VOTS는 short-term와 long-term 추적을 모두 포함하므로, 객체가 프레임 아웃되었다 재진입하는 장면에 대비해야 합니다 ([2307.13974] LaTeX Author Guidelines for CVPR Proceedings). MOT에서는 보통 **트랙 렌즈(tracklets)**를 관리하며 사라진 객체는 잠시 트랙 보류 상태로 두는데, 유사하게 일정 프레임 동안 객체 마스크가 없으면 해당 객체를 "실종" 상태로 표시하고 추적을 중지했다가, 나중에 해당 ID의 객체가 다시 탐지되면 같은 ID로 재개하도록 설계합니다. 이때 임계 프레임 수나 유사도 threshold를 정하여, 너무 오래 사라지면 아예 종료하거나, 아니면 끝까지 메모리에서 유지할지 결정해야 합니다.
정리: 다중 객체 추적의 ID 관리 기법과 재검출 기법을 세그멘테이션 추적 파이프라인에 통합하면 안정성이 크게 향상됩니다. 특히 Re-ID 임베딩 활용, 마스크 간 매칭 및 연관, Occlusion 대비 로직을 넣어주면 장면 내 여러 객체를 장기간 추적할 때 발생하는 오류를 완화할 수 있습니다. 실제 VOTS2023 참가자들도 추적기+검증망 결합(예: CoCoLoT의 MDNet 기반 검증 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results))이나 멀티모델 앙상블을 통해 ID 안정성을 높이고자 노력했습니다. 따라서 MOT 관점의 체계적 트랙 관리를 적용하는 것이 권장됩니다.
Sequential vs Simultaneous 모드 최적화 포인트
VOTS2025에서는 동일 추적 알고리즘을 두 가지 모드로 실행해볼 수 있습니다 (VOTS2025 Challenge | Submit):
- 동시 모드(Simultaneous mode): 매 프레임에서 모든 객체의 마스크를 한꺼번에 예측하고 나서 다음 프레임으로 진행합니다. 다중 객체를 병렬 또는 하나의 모델로 처리하므로 특징 공유와 일관성 있는 추론이 가능하지만, 구현 난도가 높을 수 있습니다. 이 모드에서는 최대한 공통 Backbone 특징을 공유하도록 최적화하는 것이 중요합니다. 예를 들어, 한 프레임에 대해 한 번만 백본 피처를 계산하고 이를 모든 객체의 모듈(추적 헤드 or 세그멘테이션 헤드)에서 재사용하면, 중복 계산을 줄이고 객체 수가 많아도 비교적 효율적으로 처리할 수 있습니다. 또한 하나의 네트워크가 여러 객체를 동시에 출력하는 경우, 객체 간 상호작용 정보를 활용할 수 있으므로 트랜스포머의 멀티헤드 어텐션으로 객체들 사이 관계를 학습시키는 것도 가능할 것입니다. 다만 메모리 사용량이 객체 수에 따라 증가하므로, 필요한 메모리만 유지하는 동적 메모리 관리가 필요합니다 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results). 실제 Dynamic-DeAOT 등은 긴 영상에서 메모리 부담을 줄이고자 오래된 메모리 삭제 등의 최적화를 하였습니다. 마지막으로, 동시 모드에서는 한 프레임의 모든 결과를 낸 후 넘어가므로, 프레임 간 ID 일치는 자연히 보장되지만, 만약 순차 추론 중 한 객체가 어려움을 겪어 시간이 지연되면 전체 처리 시간이 늘어날 수 있으니 모델 경량화와 병렬화에도 신경써야 합니다.
- 순차 모드(Sequential mode): 객체별로 독립적인 추적기를 순차적으로 실행합니다 (VOTS2025 Challenge | Submit). 예를 들어 2개 객체가 있으면 첫 객체를 영상 끝까지 추적 완료한 후, 두번째 객체를 처음부터 끝까지 추적합니다. 이 방식은 기존 단일 객체 추적 코드를 거의 수정 없이 활용할 수 있다는 장점이 있습니다 (VOTS2025 Challenge | Submit). 최적화 포인트는 중복 작업 최소화입니다. 객체마다 따로 추적하면 동일한 영상 프레임에 대해 Backbone 추출 등을 반복하게 되는데, 이를 줄이기 위해 프레임별 피처를 캐싱해두고 두번째 객체 추적 시 재사용하는 방식을 고려할 수 있습니다. 실제 구현에서는 VOT toolkit의 sequential 모드를 그대로 쓰면 이러한 캐싱이 자동으로 되진 않지만, 사용자가 백엔드에서 GPU 메모리에 피처를 저장/불러오는 형태로 최적화할 수 있습니다. 또한 순차 추적 시 첫 객체와 두번째 객체 추적 결과 사이 일관성 검사를 하는 것도 고려됩니다. 예를 들어 첫 객체 추적 동안 그 객체 마스크가 가렸던 영역에 두번째 객체가 있었다면, 두번째 객체 추적에서 다소 불리할 수 있으므로, 순차 모드라도 사전/사후에 결과를 조정하여 동시 추적과 유사한 일관성을 확보해야 할 것입니다. 시간 면에서는 순차 모드가 병렬화 이점을 살리지 못해 느리지만 자원 제한이 없다면 감내할 수 있고, 구현 단순성으로 인한 개발 시간 단축이 장점입니다.
모드별 요약: 동시 모드에서는 공통 피처 공유와 멀티타겟 상호작용을 최대한 활용하고 메모리 관리에 신경써야 합니다. 순차 모드에서는 중복 계산 제거와 결과 간 후처리로 일관성 확보가 포인트입니다. 만약 참가자가 단일 객체 SOTA 추적기에 익숙하다면 순차 모드로 빠르게 통합한 뒤 성능을 높이고, 최종 제출 전 동시 모드로 피처 공유 최적화까지 구현해보는 전략도 고려할 만합니다. 실제 한 참가팀은 객체 수에 따라 동시/순차 방식을 자동 선택하는 하이브리드 방법을 썼는데, 5개 이상 객체일 때는 DeAOT 기반 동시 추적을, 적은 객체일 때는 개별 추적+SAM을 사용하는 식으로 유연하게 대처했습니다 (The First Visual Object Tracking Segmentation VOTS2023 Challenge Results). 이처럼 데이터셋 특성을 고려한 모드 운용도 좋은 최적화 방안입니다.
최종 제안 모델 구조
마지막으로, 위의 논의를 바탕으로 권장하는 모델 아키텍처를 다이어그램으로 정리하면 다음과 같습니다:
(image) Figure: 제안하는 하이브리드 추적 모델 구조. 초기 프레임의 다중 객체 마스크로 각 객체별 메모리 임베딩을 설정합니다. 매 프레임마다 공유 백본을 통해 특징을 추출하고, 이전까지의 메모리를 활용하는 **영상 세그멘테이션 모듈(VMOS)**이 대략적인 객체 마스크들을 예측합니다. 그런 다음, 예측된 마스크 또는 해당 바운딩 박스를 **Segmentation Refiner(SAM/HQ-SAM)**에 입력하여 경계를 정교화하고 최종 마스크를 출력합니다. 각 프레임의 출력 마스크는 다시 메모리 뱅크에 저장되어 다음 프레임 처리에 활용됩니다. 이러한 구조는 메모리 기반 정확한 추적과 대규모 분할 모델의 정밀함을 결합하여, 복잡한 장면에서도 견고하게 여러 객체를 추적할 수 있도록 설계되었습니다.
구체적으로 살펴보면, VMOS 부분에는 DeAOT 기반의 멀티스케일 세그멘테이션 모듈을 채택하여 첫 프레임부터 propagate된 coarse mask들을 얻게 됩니다 (Paper Review: Tracking Anything in High Quality | by Andrew Lukyanenko | Medium). 이 모듈은 InternImage 등의 강력한 백본으로 추출한 멀티스케일 특징을 활용하며, Gated Propagation 등을 통해 작은 객체 세부 정보까지 유지합니다 (Paper Review: Tracking Anything in High Quality | by Andrew Lukyanenko | Medium) (Paper Review: Tracking Anything in High Quality | by Andrew Lukyanenko | Medium). 그 다음 Mask Refiner로는 HQ-SAM과 같은 모델을 써서 VMOS 출력이 부족한 복잡 영역을 보완합니다 (Paper Review: Tracking Anything in High Quality | by Andrew Lukyanenko | Medium) (Paper Review: Tracking Anything in High Quality | by Andrew Lukyanenko | Medium). Refiner는 VMOS 마스크의 외접 bounding box를 받아 원본 이미지와 함께 세그먼트하여 날카로운 경계의 마스크를 산출합니다 (Paper Review: Tracking Anything in High Quality | by Andrew Lukyanenko | Medium). 이렇게 두 단계를 거치면 VMOS의 추적 일관성과 SAM 계열의 정밀 분할 능력이 합쳐져 정확도와 견고함을 모두 갖춘 결과를 얻을 수 있습니다. 마지막으로, MOT 전략을 접목한 트랙 관리 모듈이 백그라운드에서 동작하여, 만약 어느 객체가 일정 기간 추적 실패 시 재탐색을 시도하고 ID를 유지시켜 줍니다. 이 전체 파이프라인은 Python + PyTorch 환경에서 구현 가능하며, 병렬 처리와 메모리 최적화를 통해 VOTS2025 데이터셋(144 시퀀스)에 대한 처리를 감당할 수 있도록 설계됩니다.
끝으로, 제안하는 모델은 요구 조건을 모두 충족하도록 구성되었습니다: 1) 강력한 백본과 메모리망으로 높은 정확도의 마스크 예측, 2) Refiner와 MOT 기법으로 견고한 다중 객체 추적, 3) Sequential/Simultaneous 실행 방식 모두에 유연한 구조입니다. 이 구조를 토대로 세부 튜닝을 한다면 VOTS2025 챌린지에서 높은 성능을 기대할 수 있을 것으로 판단됩니다.
'Projects' 카테고리의 다른 글
CycleNet 후속 연구 계획서 (0) | 2025.05.03 |
---|---|
SegMamba 기반 3D 의료 영상 분할 정확도 향상을 위한 연구 계획서 (0) | 2025.05.03 |
Language-Based Audio Retrieval (DCASE 2025 Task 6) 연구 계획 (0) | 2025.05.03 |
DCASE 2025 Task 2: 고성능 이상음 탐지를 위한 모델 아키텍처 및 기법 (0) | 2025.05.03 |
음향 이벤트 검출을 통한 오디오 캡셔닝 시간 관계 강화: 후속 연구 계획 (0) | 2025.05.01 |