半监督视频目标分割方法综述与CFBI模型详解
1. 数据集介绍
YouTube - VOS是唯一的大规模半监督视频目标分割(SVOS)数据集,包含3252个YouTube视频片段,涵盖78个类别,如常见动物、车辆、配件和人类活动等。每个视频片段约3 - 6秒长,通常包含多个对象,由专业注释人员手动分割。与其他现有数据集相比,它包含更多的视频、对象类别、对象实例和注释,以及更长的总注释视频时长。自2018年起,基于该数据集举办了大规模视频目标分割挑战赛(LSVOS),且由于DAVIS自2020年起停止举办挑战赛,LSVOS成为唯一现有的SVOS挑战赛。
2. 方法概述
SVOS方法可根据是否使用手工特征分为非深度学习方法和深度学习方法。尽管近期SVOS的发展主要集中在深度学习方法上,但回顾非深度学习方法仍有价值,因为其关键思想有助于理解问题。
2.1 非深度学习方法
这类方法通常利用时空图来解决SVOS问题。在图 $G$ 中,顶点集 ${d_i} \in D$,边集 ${e_{ij}} \in E$,每个顶点可代表像素、超体素、补丁或对象提议,每条边代表两个顶点之间的成对关系。目标是将图划分为不相交的子图,并为每个顶点分配标签(如前景、背景),通常通过最小化以下能量函数来实现:
$E = \sum_{d_i \in D} U(d_i) + \lambda \sum_{e_{ij} \in E} w_{ij} \cdot V (d_i, d_j)$
其中,第一项表示单个顶点 $d_i$ 基于自身特征属于标签 $l_i$ 的可能性,第二项表示两个顶点 $d_i$ 和 $d_j$ 基于边关系具有标签 $l_i$ 和 $l
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



