AI & Statistics Lab

Paper Review

ARTrackV2 논문 리뷰

AIStat 2025. 6. 10. 13:57

ARTrackV2는 비디오 프레임 전반에 걸쳐 대상을 어디서 찾아야 할지(Localization)어떻게 외형을 묘사할지(Appearance analysis)라는 두 가지 핵심 추적 요소를 통합한 모델입니다. 이전 모델인 ARTrack의 개념을 확장하여, 객체의 궤적("읽어내는 것")과 외형("다시 말하는 것")을 자기회귀 방식(autoregressive manner)으로 "읽어내고 다시 말하는" 통합 생성 프레임워크를 도입합니다. 이 접근 방식은 이전 추정값을 바탕으로 움직임과 시각적 특징의 동시 진화(joint evolution)를 모델링하는 시간 연속적 방법론(time-continuous methodology)을 촉진합니다.

ARTrackV2는 효율성과 단순성 면에서 두드러집니다. 효율성이 떨어지는 프레임 내 자기회귀(intra-frame autoregression)와 외형 업데이트를 위한 수동 튜닝 매개변수(hand-tuned parameters)를 없앴습니다. 단순함에도 불구하고, ARTrackV2는 현재 벤치마크 데이터셋에서 최첨단 성능(state-of-the-art performance)을 달성하며 ARTrack보다 3.6배 빠른 효율성 향상을 보입니다. GOT-10k에서 79.5%의 AO 점수를, TrackingNet에서 86.1%의 AUC를 달성했습니다.

핵심 개념 및 특징:

  1. 통합 생성 프레임워크 (Unified Generative Framework):
    • ARTrackV2는 추적 작업을 시퀀스 생성(sequence generation)으로 재정의한 최근의 생성 패러다임 위에 구축되었습니다.
    • 이전 모델들은 주로 궤적 추정이나 외형 모델링 중 하나에 집중했습니다. 전통적인 방법은 칼만 필터나 파티클 필터처럼 이전 상태를 활용하여 움직임을 예측했습니다. 현대적인 학습 기반 방법은 템플릿 매칭 프레임워크를 사용하여 대상의 시각적 특징을 이해하고 추적하려 했습니다. 이러한 접근 방식은 종종 프레임 수준 훈련 전략을 채택하여 프레임 간의 시간적 종속성을 간과했습니다.
    • SeqTrack은 프레임 내 시퀀스 모델을 도입하여 경계 상자의 네 토큰을 자기회귀 방식으로 생성했습니다. 또한 이전 좌표 토큰을 추론에 추가하면 정확도가 향상됨을 보여주었습니다.
    • ARTrack은 프레임 간 자기회귀(inter-frame autoregression)에 중점을 두었습니다. 훈련 및 테스트 시 데이터 분포와 작업 목표 간의 일관성을 유지하기 위해 비디오 시퀀스 수준 훈련을 지지했습니다. ARTrack는 이전 궤적 토큰(궤적 프롬프트라고 함)을 사용하여 궤적 진화를 지속적으로 모델링하는 유연성을 가졌습니다.
    • ARTrackV2는 한 단계 더 나아가 궤적-외형 동시 자기회귀(joint trajectory-appearance autoregression)를 도입합니다. 추적기가 대상을 성공적으로 추적한다면, 객체의 위치를 "읽어낼" 뿐만 아니라 그 외형 변화도 "다시 말해야" 한다는 직관에 기반합니다. ARTrack의 궤적 시계열 모델링과 함께, 외형 프롬프트 세트를 사용하여 객체의 외형을 동시에 재구성하는 자기회귀 모델을 유지합니다. 이 토큰들은 동적 템플릿처럼 작동하며 어텐션 메커니즘을 통해 검색 영역과 상호작용합니다. 더 나아가, 시각적 특징 진화에 대한 이해를 요구하며 객체 외형을 재구축하도록 훈련됩니다.
  2. 순수 인코더 아키텍처 (Pure Encoder Architecture):
    • ARTrackV2는 순수 인코더 아키텍처를 활용하여 프레임 내 모든 토큰을 병렬로 처리합니다. 이는 추적 효율성을 저해하는 프레임 내 자기회귀를 포기하면서도 시간 자기회귀 프레임워크(프레임 간 자기회귀)를 유지합니다.
    • 많은 기존 추적 시스템은 여러 훈련 단계나 템플릿 업데이트를 위한 수동 튜닝 매개변수를 요구하는 반면, ARTrackV2는 단일 단계 내에서 종단간(end-to-end) 훈련을 거칩니다.
  3. 자기회귀 외형 재구성 (Autoregressive Appearance Reconstruction):
    • 외형 프롬프트 세트와 재구성 디코더를 사용하여 현재 검색 영역 내 대상의 외형을 재현합니다.
    • 각 비디오 클립에서 외형 프롬프트는 첫 프레임의 템플릿으로 초기화됩니다. 이후 각 프레임에서 외형 프롬프트는 현재 검색 영역과 상호작용하여 대상을 추출하고, 재구성 디코더를 통해 대상 외형을 재구축합니다. 재구성 디코더의 출력은 외형 프롬프트를 지속적으로 업데이트하며, 이는 다음 프레임으로 전파됩니다.
    • 대상이 가려지거나 시야 밖으로 나가는 경우와 같은 복잡한 시나리오에서 외형의 부적절한 진화는 대상 손실을 초래할 수 있습니다. 이를 해결하기 위해, ARTrackV2는 시각적 단서가 없는 시나리오에서 외형 토큰이 현재 상태를 유지하도록 지시하여 불필요한 외형 진화를 방지합니다. 이 과정은 모델이 시간 경과에 따른 외형 변화를 포착하면서 자기회귀 특성을 보존할 수 있게 합니다.
  4. 외형 진화 지표 (Appearance Evolution Indicator):
    • 품질 높은 외형 진화를 보장하기 위해 지표(indicator)로 진화를 안내하는 솔루션을 제안합니다. 학습 가능한 신뢰도 토큰(confidence token)과 신뢰도 예측 모듈(prediction module, 3계층 퍼셉트론)을 사용합니다.
    • 지표 측정항목으로 IoU(Intersection over Union)를 사용하는데, 이는 일반적인 추적 평가 측정항목과 일치하기 때문입니다. 연속 프레임에서 신뢰도 토큰은 트랜스포머 인코더를 통해 모든 토큰과 상호작용하며, 이는 외형 토큰이 진화할지 현재 상태를 유지할지에 대해 암시적으로 안내합니다.
    • 이전 연구 결과와 달리, IoU를 재구성 지표로 사용하는 것이 더 나은 정확도를 가져옴을 발견했습니다. 이는 IoU 측정항목이 추적에 사용되는 평가 측정항목과 더 밀접하게 연관되어 있어 진화 품질을 정확하게 반영하기 때문입니다.
  5. 마스킹 전략 (Masking Strategy):
    • 예측된 위치만을 기반으로 시각적 특징을 크롭하고 외형 진화 이해를 간과하는 것을 방지하기 위해 트랜스포머 인코더 내에서 어텐션 마스킹 전략을 구현합니다.
    • 외형 토큰은 검색 영역(대상 외형 재구성용) 및 신뢰도 토큰(외형 진화 지시용)과만 상호작용하도록 제한됩니다. 이 의도적인 프로세스는 외형 토큰이 대상 위치에 기반하여 시각적 특징을 단순히 크롭하는 것을 억제하고 외형 진화 이해를 제한합니다.
  6. 시퀀스 증강 (Sequence Augmentation):
    • 프레임 수준 훈련에 비해 비디오 클립을 샘플링하는 시퀀스 수준 훈련은 사용 가능한 훈련 데이터 양을 감소시킵니다. 이를 극복하기 위해 시퀀스 수준 증강 방법을 탐구했습니다.
    • 고정 또는 무작위 간격 샘플링은 시간적 연속성을 방해하여 정확도를 떨어뜨렸습니다. 반면, 비디오를 단순히 역재생하는 **역방향 증강(reverse augmentation)**은 데이터 분포를 잘 유지하며 정확도를 향상시켰습니다.

훈련 및 추론:

  • ARTrackV2는 비디오 시퀀스 수준 훈련을 강조하며 궤적-외형의 동시 진화를 종단간 방식으로 촉진합니다.
  • 훈련 시 궤적 시퀀스의 로그 우도(log-likelihood)를 최대화하는 구조화된 목표를 사용합니다. 공간 상관관계 측정을 향상시키기 위해 SIoU 손실도 통합합니다.
  • MAE에서 영감을 받아 재구성 토큰 마스킹 전략을 도입하여 외형 토큰 하위 집합을 마스킹하고 재구성 과적합을 방지합니다. 재구성된 토큰과 검색 영역 내 대상 또는 이전 외형 토큰 간의 평균 제곱 오차(MSE)를 계산하여 훈련합니다.
  • 전체 추적기는 교차 엔트로피 손실(cross-entropy loss, ℒce), SIoU 손실(ℒSIoU), MSE 손실(ℒmse), IoU L1 손실(ℒL1)의 합으로 정의된 시퀀스 수준 손실 함수로 최적화됩니다.
  • 추론 중에는 궤적과 외형 토큰을 초기화하고, 자기회귀 방식으로 궤적 시퀀스를 동시에 생성하고 대상 외형을 재구성합니다. 궤적, 외형, 신뢰도 토큰은 다음 프레임으로 반복적으로 전파됩니다.

성능 및 결과:

  • ARTrackV2는 GOT-10k, TrackingNet, LaSOT, LaSOText 등 여러 벤치마크에서 평가되었습니다.
  • GOT-10k: ARTrackV2-L384는 모든 측정항목에서 최첨단 성능을 능가합니다. ARTrackV2256과 ARTrackV2384도 ARTrack을 제외한 다른 추적기보다 뛰어난 성능을 보입니다.
  • TrackingNet: ARTrackV2384는 AUC에서 다른 모든 추적기를 능가하며, ARTrackV2-L384는 이 대규모 벤치마크에서 세 가지 측정항목에서 새로운 최첨단 성능을 수립합니다.
  • LaSOT: ARTrackV2256은 더 낮은 입력 해상도에도 불구하고 ARTrack384와 비견되는 성능을 달성합니다. ARTrackV2-L384는 49 FPS로 실행되면서 성능을 크게 향상시키며, SeqTrack-L384(9 FPS)보다 5배 이상 빠릅니다.
  • LaSOText: ARTrackV2384는 72 FPS로 실행되며 더 큰 백본을 가진 다른 추적기를 능가하는 뛰어난 정확도를 달성합니다. ARTrackV2-L384는 49 FPS로 ARTrack-L384보다 3배 빠르게 실행되며 새로운 최첨단 성능을 수립합니다.
  • 속도 vs. 정확도: 프레임 내 자기회귀를 제거함으로써 추론 속도가 약 3배 향상되었으며, 이는 정확도를 저해하지 않았습니다. GOT-10k에서 ARTrackV2-L384는 79.5%의 인상적인 AO로 새로운 최첨단 성능을 달성했고, ARTrackV2256은 94 FPS로 경쟁력 있는 성능을 제공합니다.
  • 다른 벤치마크: ARTrackV2-L384는 TNL2K, NFS, UAV123 벤치마크에서도 일관되게 다른 추적기보다 뛰어난 성능을 보였습니다. 특히 완전 폐색(Full Occlusion), 부분 폐색(Partial Occlusion), 조명 변화(Illumination Variation)와 같은 속성에서 두드러진 개선을 보입니다.

실험 분석 및 통찰:

  • 누적 효과: 순수 인코더 아키텍처는 효율성을 크게 향상시켰지만 정확도가 감소했습니다. 외형 진화, 신뢰도 예측, 마스킹 전략, 시퀀스 증강을 추가하여 프레임 간 자기회귀를 강화함으로써 정확도를 향상시켰습니다. 이러한 요소들이 통합되어 궤적과 외형의 동시 진화를 보완하며 최첨단 결과를 달성합니다.
  • 외형 모델 비교: ARTrackV2의 생성적 외형 모델은 검색 이미지에서 크롭된 영역이 템플릿 업데이트에 신뢰할 수 있는지 판별하는 이전 판별적 모델과 다릅니다. 판별적 접근 방식은 종종 추가 훈련 단계를 요구하거나 수동 튜닝 매개변수에 의존합니다. ARTrackV2의 생성적 모델은 스코어링 및 크롭 대신 연속적인 자기회귀 방식으로 템플릿을 재현하는 것을 학습하며, 판별적 접근 방식보다 더 나은 성능을 보입니다.
  • 재구성 목표: 외형 토큰의 품질은 대상의 적절한 재구성 목표를 통해 확인됩니다. 화소 도메인 이미지 재구성보다 잠재 특징 도메인에서의 특징 재구성이 더 나은 외형 진화에 효과적임을 발견했습니다 (AO 측정항목에서 약 1.1% 향상). 이미지 재구성은 복잡한 세부사항이나 배경에 지나치게 집중하는 경향이 있을 수 있습니다.
  • 외형 진화 지표: IoU를 지표로 사용하는 것이 신뢰도, 거리, 가시성과 같은 다른 지표보다 우수한 정확도를 가져왔습니다. 이는 IoU가 추적 평가 측정항목과 더 밀접하게 일치하기 때문입니다. 가시성 측정항목은 불만족스러운 결과를 보였는데, 이는 GOT-10k 가시성 라벨의 모호성과 노이즈 때문일 수 있습니다.
  • 시퀀스 증강: 비디오를 고정 또는 무작위 간격으로 샘플링하는 것은 시간적 연속성을 방해하여 정확도를 감소시켰습니다. 반면 역방향 증강은 데이터 분포를 잘 유지하며 GOT-10k에서 AO를 0.7% 향상시켰습니다.
  • 시퀀스 형식 연구: 대상을 "읽어내는" 시퀀스 형식에 대한 연구에서, 대상의 위치를 상단-왼쪽 및 하단-오른쪽 모서리 좌표로 나타내는 [xmin, ymin, xmax, ymax] 형식이 다른 형식([x, y, w, h], [(x, y)t-l, (x, y)b-r])보다 뛰어난 성능을 보였습니다. 통합 어휘 사용 시 위치와 스케일 간의 혼동이 발생하고, 여러 어휘 사용 시 잠재적 간섭이 발생하며, 2D 좌표 코드북 사용 시 훈련 속도가 느려지고 정확도가 저하되는 문제가 있었습니다.
  • 궤적 및 외형 진화: 궤적 진화 또는 외형 진화 중 하나라도 제거하면 성능이 크게 저하되었습니다. 이는 개별 진화 요소만으로는 일관된 대상 변화를 설명하기에 불충분하기 때문입니다. 둘 다 제거하면 정확도가 더욱 뚜렷하게 감소하며, 이는 연속 추적이 프레임 수준 템플릿 매칭 접근 방식으로 변환되어 추적의 시간 연속성을 깨뜨리기 때문입니다.
  • 마스킹 비율 연구: ARTrackV2는 훈련 시 매우 높은 마스킹 비율을 사용합니다. 마스킹 비율이 90%에 도달할 때까지 모델 정확도가 지속적으로 향상됨을 발견했습니다. 이는 텍스트 및 이미지 단서에 비해 시간 정보의 중복성과 관련성에서 비롯될 수 있으며, 따라서 ARTrackV2는 매우 높은 가림 비율에서도 합리적인 출력을 생성할 수 있음을 시사합니다.
  • 시각화: 외형 토큰과 검색 영역 간의 교차 어텐션 맵 시각화는 외형 변화, 부분 폐색, 조명 변화와 같은 어려운 시나리오에서 모델의 적응성과 다재다능함을 보여줍니다. 이미지 재구성 시각화는 모델이 장기 외형 진화를 포착하고, 대상이 폐색될 때 이전의 가시적 외형을 재구성하여 잘못된 위치 예측을 방지하며, 시야 밖 대상 관리 및 조명 변화 포착 능력을 보여줍니다.

결론:

ARTrackV2는 궤적을 동시 진화시키고 외형을 재구성하는 통합 생성 프레임워크를 구현하여 이전 모델의 개념을 확장한 종단간 추적기입니다. 연속적인 시계열에서 대상 위치를 "읽어내고" 외형 변화를 "다시 말하며", 궤적-외형 프롬프트를 연속 프레임으로 전파하고 예측하여 프레임 간 자기회귀를 강화합니다. 또한 효율성이 낮은 프레임 내 자기회귀를 제거하고 프레임 내 모든 토큰을 병렬 처리하는 순수 인코더 아키텍처를 사용합니다. ARTrackV2는 성능과 효율성 모두에서 주목할 만한 발전을 보여줍니다.