AOT는 계층적 propagation을 통해 정보를 과거 frame에서 현재 frame으로 propagate할 수 있으며 현재 frame feature를 object-agnostic(객체와 상관없이) 에서 object-specific(객체 특정)으로 변환해준다.
하지만, object-specific 정보의 상승으로 인하여 필연적으로 깊은 전파 계층에서 object-agnostic 시각적 정보의 손실로 이어짐
→ DeAOT approach 제안
<aside> 💡 1. DeAOT : 2개의 embeddings(object-agnostic, object-specific)를 독립적인 두개의 branch로 다루어 계층적 propagation을 decouple함
</aside>
Semi-supervised VOS
feature의 차원은 제한되어있기에 AOT의 ID information의 증가는 최소의 visual information의 loss를 이끌어냄. 그러나 현재 프레임이 제공하는 유일한 단서인 일치하는 object’s visual features는 attention-based VOS 솔루션에 중요
→ DeAOT : shares the embedding space for visual (object-agnostic) and ID (object-specific) embedding
각 독립인 dual branch를 사용하여 embedding space를 공유하여 propagation을 진행
Oneline-fine tuning methods
Matching-based Methods