半监督视频目标分割:基于循环机制的内存网络方法
在视频目标分割(VOS)领域,内存网络方法结合了图像匹配和长时时间方法的优势,在近期基准测试中取得了领先成果。然而,由于历史目标掩码存储在外部内存中,这些帧中的错误会对未来帧产生负面影响。本文将介绍一种利用循环机制减少这一问题的内存网络。
1. 动机
处理半监督视频目标分割(SVOS)问题的自然方法是按顺序处理视频,利用前一帧的信息来指导当前帧的分割过程。在大多数实际场景中,视频以在线方式处理,仅能获取先前的知识。因此,大多数先进的方法在训练和推理阶段都遵循顺序分割的方式。
理想情况下,如果中间帧的预测掩码足够准确,它们可以为分割提供更有用的特定目标特征和位置先验。然而,中间帧的预测错误可能会误导未来帧的分割过程。例如,在一个视频中,算法可能会被背景中外观相似的骆驼误导,将分割出的背景骆驼作为错误的指导,导致算法在后续帧中逐渐同时关注前景和背景目标。
基于这些观察,我们提出以循环方式训练和应用分割网络。与预测的参考掩码不同,起始帧中提供的初始参考掩码在半监督模式下总是完全准确和可靠的。这启发我们通过将第一个参考掩码作为预测的度量,明确建立初始参考掩码与目标帧之间的关系。这样,我们可以进一步细化中间掩码的预测,并引导网络学习更鲁棒的跨帧对应特征表示,减少背景干扰的影响。
2. 问题表述
给定长度为 $T$ 的视频,$X_t$ 是时间顺序上的第 $t$ 帧($t \in [1, T]$),$Y_t$ 是其对应的标注掩码。$S_{\theta}$ 是一个由可学习权重 $\theta$ 参数化的目标分割网络。
在视频的顺序处理中,分割网络应实现以下功能: <
循环机制优化半监督视频目标分割
超级会员免费看
订阅专栏 解锁全文
2243

被折叠的 条评论
为什么被折叠?



