기존 한개의 객체만 segmentation하는 것에서 발전하여
균등하게 모든 객체를 모아 매칭하고 디코드 한다.
→ 다중 객체를 같은 고차원 embedding 공간에 모은다
LSTT : Long-Short Transformer: Efficient Transformers for Language and Vision
→ constructing hierarchical object matching and propagation for VOS.
→ LSTT의 개수에 따라 실시간성과 성능 사이의 밸런스를 조절할 수 있다.
Semi‑Supervised Video Object Segmentaion의 목표
첫 번째 프레임에 주어진 객체 마스크를 기반으로 전체 비디오 시퀀스에서 객체를 추적하고 분할하는 것
VOS algorithm
Space-Time Memory Networks
: memory구조를 활용하여 전 프레임들의 정보를 저장하고, 현재 프레임에 도움이 되는 부분을 읽어서 사용
FEELVOS, CFBI :
: 전역 및 로컬 매칭 매카니즘을 사용하여 현재 frame에 첫번째 frame과 이전 frame 모두에서 target의 pixel 혹은 patch을 일치 시킨다.
다중 객체 시나리오를 처리하기 위한 methods
(a) 기존 algorithm 을 사용하고 사후에 ensemble 하여 다중 객체 segmentation을 한다.
네트워크 설계는 용이하지만 다중 객체의 context infomation을 탐색하기에 비효율 적이다. 또한 여러 단일 객체를 병렬로 처리하기 위해 GPU memory 및 연산량이 몇 배 더 필요하다