半监督视频对象分割:长距离时间网络方法解析
1. 引言
视频对象分割(VOS)在许多视频分析任务中至关重要。传统的半监督视频对象分割(SVOS)方法大多依赖静态图像分割技术,或者在捕捉时间依赖时需要预训练的光流模型,这些方法在处理对象外观剧烈变化和快速运动时效果不佳。为了解决这些问题,我们提出了一种基于循环神经网络(RNN)的SVOS方法,旨在自动学习长距离时间信息。
2. 相关工作回顾
在介绍新方法之前,先回顾一下之前的一些工作。之前的SVOS方法主要存在以下问题:
- 大多依赖静态图像分割技术,忽略了视频中的时间信息。
- 部分捕捉时间依赖的方法需要预训练的光流模型,导致解决方案并非最优。
3. 新方法动机
学习长期的时空特征对于许多视频分析任务至关重要。然而,现有的SVOS方法在处理对象外观剧烈变化和快速运动时存在局限性。因此,我们提出了一种新的序列到序列视频对象分割算法,该算法能够直接从训练数据中以端到端的方式学习长期的时空特征,并且离线训练的模型能够通过自动记忆和更新对象的特征(包括外观、位置、尺度和时间运动),在整个视频序列中准确传播初始对象分割掩码。
4. 问题表述
设一个包含 $T$ 帧的视频序列为 ${x_t|t \in [0, T - 1]}$,其中 $x_t \in \mathbb{R}^{H\times W\times 3}$ 是时间步 $t$ 的RGB帧,初始二进制对象掩码在时间步 0 表示为 $y_0 \in \mathbb{R}^{H\times W}$。视频对象分割的目标是自动预测从时间步 1 到 $T - 1$ 的剩余帧的对象掩码,即
超级会员免费看
订阅专栏 解锁全文
1589

被折叠的 条评论
为什么被折叠?



