AOT는 계층적 propagation을 통해 정보를 과거 frame에서 현재 frame으로 propagate할 수 있으며 현재 frame feature를 object-agnostic(객체와 상관없이) 에서 object-specific(객체 특정)으로 변환해준다.

하지만, object-specific 정보의 상승으로 인하여 필연적으로 깊은 전파 계층에서 object-agnostic 시각적 정보의 손실로 이어짐

DeAOT approach 제안

<aside> 💡 1. DeAOT : 2개의 embeddings(object-agnostic, object-specific)를 독립적인 두개의 branch로 다루어 계층적 propagation을 decouple함

  1. Gated Propagation Module : dual-branch의 추가적인 연산을 보상하기 위해 제안한 single-head attention으로 구성한 모듈 (efficiency bottleneck of AOT then stronger multi-head attention)

</aside>

Semi-supervised VOS

feature의 차원은 제한되어있기에 AOT의 ID information의 증가는 최소의 visual information의 loss를 이끌어냄. 그러나 현재 프레임이 제공하는 유일한 단서인 일치하는 object’s visual features는 attention-based VOS 솔루션에 중요

→ DeAOT : shares the embedding space for visual (object-agnostic) and ID (object-specific) embedding

각 독립인 dual branch를 사용하여 embedding space를 공유하여 propagation을 진행

2. related work

Semi-supervised VOS

Finetuning-based Methods

Oneline-fine tuning methods

Template-based Methods

Matching-based Methods

Attention-based Methods

Visual Transformers

3. Rethinking Hierarchical Propagation for VOS