GSANet:使用无监督学习实现视频对象分割

​Abstract

无监督视频对象分割的目标是在视频序列中分割出最显著的对象。然而,复杂背景的存在和多个前景对象的出现使这一任务充满挑战。为了解决这个问题,我们提出了一种引导槽注意力网络,以增强空间结构信息并获得更好的前景与背景分离。通过查询引导初始化的前景和背景槽,基于与模板信息的交互对其进行迭代优化。此外,为了改进槽与模板的交互并有效融合目标和参考帧中的全局和局部特征,我们引入了K-近邻过滤和特征聚合转换器。该模型在两个流行数据集上达到了最新的性能水平。此外,通过各种对比实验,我们展示了该模型在复杂场景中的鲁棒性。

源代码:https://github.com/Hydragon516/GSANet.

Instroduction

视频对象分割(VOS)是计算机视觉中的一项关键任务,旨在逐帧分割视频序列中的对象。VOS被用作视频字幕生成、光流估计和自动驾驶等任务的预处理。VOS任务根据是否有明确的目标监督信息可以分为半监督和无监督两种方法。在半监督VOS中,模型提供了初始帧的分割掩码,其目标是在整个视频序列中跟踪并分割指定对象。而无监督VOS要求模型在没有任何外部指导或初始帧掩码的情况下,寻找并分割视频序列中最显著的对象。无监督VOS是一个更具挑战性的任务,因为它涉及到在输入视频中搜索一致出现的常见对象并有效提取它们的特征。
由于无监督VOS的难度,基于深度学习的无监督VOS模型近年来备受关注。特别是,许多方法整合了光流等额外的运动信息与RGB外观信息,因为目标对象通常表现出显著的运动。这些方法专注于如何恰当地融合外观和运动信息。这两种信息可以相互补充并为预测提供有用的线索。然而,它们存在过度依赖运动线索而忽略场景结构信息(如颜色、纹理和形状)的问题。在场景结构复杂或光流图质量较低的情况下,这些方法无法可靠运行。
为了解决这些问题,我们提出利用最初在以对象为中心的学习中引入的槽注意力机制。这一机制使得从充满上下文信息的特征中提取关键的空间结构信息成为可能,这是区分前景和背景所必需的。我们关注槽注意力的原因是对象为中心的学习与无监督VOS之间有着共同的直觉,即两者都旨在自我学习并分割对象和背景的显著特征。在以对象为中心的学习中,槽注意力生成随机初始化的空槽,并对输入图像特征执行迭代多头注意力,以为每个槽存储单个对象和背景信息。这些存储在每个槽中的对象和背景的单个信息通过捕捉单个对象及其上下文的独特特征和相互作用,提供了稳健的前景和背景区分能力。这种区分的直觉也可以应用于无监督VOS模型,以增强区分最显著对象的能力。然而,现有的基于槽注意力的图像分割方法存在一个显著的局限性,即它们仅在具有统一颜色和布局的合成图像或通过颜色和形状或简单纹理(如光流图)清晰区分的对象上效果良好,而在复杂的现实场景中表现不佳。这一限制的原因有:1)随机初始化的槽难以在复杂场景中代表合理的上下文,2)现有的简单多头注意力操作缺乏稳健的特征区分能力,以及3)在存在复杂背景和多个相似对象的情况下,对所有输入特征的注意力可能成为噪声。
为了解决这些局限性,我们提出了一种新的引导槽注意力网络(GSA-Net)机制,该机制使用引导槽、特征聚合转换器(FAT)和K-近邻(KNN)过滤。该模型通过嵌入编码器目标帧特征中的上下文信息生成引导槽,这些信息包括关于前景和背景候选的粗略空间结构信息。我们的槽注意力机制不同于现有的槽注意力机制,它们采用随机初始化的空槽作为查询特征,而我们的方法防止了槽在迭代多头注意力的初始阶段以错误方式训练。此外,为槽提供指导信息使得模型在复杂的现实场景中保持稳健的上下文提取能力。更进一步地,我们的模型从目标帧和参考帧中提取并

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值