Overview of this survey

2.1 Problem Formulation and Taxonomy

VOS

<aside> 💡 일반적으로 동영상 편집의 개체 제거, 콘텐츠 기반 비디오 코딩 및 화상 회의의 가상 배경 생성과 같은 일부 비디오 분석 및 편집 관련 애플리케이션 시나리오에 사용됩니다. 분할된 객체의 정확한 의미론적 범주에는 관심이 없습니다.

</aside>

VOS는 장면에 더 많은 관심을 기울일 수 있습니다. 인간이 만든 미디어에 나타나는, 종종 큰 카메라 움직임, 변형 및 모양 변화가 있습니다.

VSS

<aside> 💡 이미지 시맨틱 분할을 시공간 영역으로 직접 확장한 VSS는 비디오에서 미리 정의된 의미 범주(예: 자동차, 건물, 보행자, 도로) 내의 개체를 추출하는 것을 목표로 합니다. 따라서 Y 는 다중 클래스 의미 분석 공간에 해당합니다. VSS는 물리적 환경에 대한 높은 수준의 이해가 필요한 로봇 감지, 인간‑기계 상호 작용 및 자율 주행과 같은 많은 응용 분야에서 인식 기반 역할을 합니다.

</aside>

VSS는 종종 정확도와 대기 시간, 작은 물체의 정확한 감지, 모델 병렬화 및 도메인 간 일반화 기능 사이의 균형을 필요로 하는 자율 주행과 같은 애플리케이션에 중점을 둡니다

VOS와 VSS는 빠른 동작 및 개체 폐색과 같은 몇 가지 일반적인 문제를 공유

Inference Modes for VOS Methods

Automatic VOS (AVOS), (unsupervised video segmentation or zero-shot video segmen-tation)

Untitled

입력 공간 X 는 비디오 도메인 V 만을 나타냅니다. AVOS는 비디오 분석에 적합하지만 임의의 개체 또는 해당 부분을 유연하게 분할해야 하는 비디오 편집에는 적합하지 않습니다. 일반적인 응용 프로그램은 화상 회의의 가상 배경 생성입니다.

Semi-automatic VOS (SVOS), (semi-supervised video segmentation or one-shot video segmentation)

Untitled