[Problem & Motivation]
일치 기반 방법, 특히 space-time 메모리를 기반으로 하는 방법(STM)은 semi-supervised VOS(Video Object Segmentation)의 다른 방법들보다 훨씬 앞서 있음 하지만, 지속적으로 증가하고 중복되는 템플릿 feature는 비효율적인 추론으로 이어지는 문제를 발생시킴
[Propose]
이를 완화하기 위해 메모리 feature의 중복성을 크게 줄이기 위한 새로운 SWEM(Sequential Weighted Expectation Maximization) 네트워크를 제안한다.
→ 프레임 사이의 feature 중복성만 감지하는 이전 방법과 달리 SWEM은 sequential weighted EM 알고리즘을 활용하여 프레임 내 및 프레임 간 유사한 feature를 모두 병합
→ 또한 프레임 feature에 대한 adaptive weight는 SWEM에 하드 샘플을 표현할 수 있는 유연성을 부여하여 템플릿 식별을 향상
→ 또한 제안된 방법은 메모리에 고정된 수의 템플릿 feature를 유지하므로 VOS 시스템의 안정적인 추론 복잡성을 보장
Semi-supervised video object segmentation (VOS)
matching-based VOS methods
STM : 메모리 네트워크를 활용하여 모든 T 프레임마다 템플릿 기능을 끝없이 저장하므로 키 프레임 정보가 누락되고 장기 비디오의 경우 메모리가 부족해지기 쉬움
또한 비디오 features의 프레임 간 중복이 매칭의 효율성을 해칠 수 있음
AFB_URR and Swift : 프레임 간 기능의 유사성을 활용하여 부분 기능을 선택적으로 업데이트 하지만, hand-crafted similarity threshold 을 통해 성능과 효율성의 균형을 맞추지 못함
프레임 간 중복성과 프레임 내 중복성은 모두 효율적인 템플릿 일치를 방해 하는 주요 원인
→ Expectation-Maximization Attention (EMA)
EM연산을 통해 memory feature에 대한 low-rank bases set 생성
개수가 bases < image pixels 이므로 bases가 더 compact한 표현 방법이며
intra-frame redundancy를 줄일 수 있음
→ Weighted Expectation-Maximization (WEM) with predicted Mask
직접적으로 EM 을 적용하지 않음
Fixed weights로 각 frame의 전경과 배경의 bases를 명시적으로 구성
→ Weighted EM with adaptive weights (proposed)
베이스를 생성하는 동안 하드 샘플에 대해 더 큰 가중치를 제공. 하드 샘플은 베이스로 잘 표현되지 않지만 객체 분할에 중요한 픽셀
intra-frame redundany 문제를 효율적으로 해결
inter-frame redundany 문제 ( WEM을 single frame에 적용하는 것은 효과적이나, 모든 memory features에 대해 직접적으로 적용을 하게 되면 연산 복잡도가 크게 증가함) 아직 해결하지 못함
→ Sequential Weighted Expectation-Maximization (SWEM) (proposed)
한 프레임의 feature만 메모리 업데이트 단계에서 EM iteration에 참여 Memory bases는 단순한 선형 조합이 아닌 유사성을 통해 새로운 프레임 features 으로 업데이트 공식적으로 이 업데이트 프로세스는 모든 과거 프레임 기능의 가중 평균과 동일합니다.
bases를 연속적으로 업데이트 하여 inter-frame 과 intra-frame의 중복을 감속
내용 필요