XMen:使用 Atkinson-Shiffrin 记忆模型进行长期视频对象分割
摘要
受Atkinson-Shiffrin记忆模型的启发,我们提出了一种用于长视频的视频目标分割体系结构XMem,它具有统一的特征记忆存储。关于视频目标分割的现有工作通常只使用一种类型的特征记忆。对于长于一分钟的视频,单一功能内存模型将内存消耗和准确性紧密联系在一起。相反,遵循Atkinson-Shiffrin模型,我们开发了一个包含多个独立但深度连接的特征记忆存储的体系结构:快速更新的感觉记忆、高分辨率工作记忆和紧凑从而持续的长期记忆。重要的是,我们开发了一种记忆增强算法,该算法定期将活跃使用的工作记忆元素整合到长期记忆中,从而避免了内存爆炸,并将长期预测的性能衰减降至最低。与新的内存读取机制相结合,XMem在长视频数据集上的性能大大超过了最先进的方法,而在短视频数据集上的性能与最先进的方法(不适用于长视频)不相上下。
1.引言
视频目标分割(VOS)突出显示给定视频中的特定目标对象。这里,我们关注半监督设置,其中第一帧注释由用户提供,并且该方法尽可能准确地分割所有其他帧中的对象,同时优选地实时、在线地运行,并且即使在处理长视频时也具有小的存储器占用。
由于信息必须从给定的注释传播到其他视频帧,所以大多数VOS方法使用特征存储器来存储对象的相关深层网络表示。在线学习方法[3,49,42]使用网络的权重作为其特征记忆。这需要在测试时进行训练,这会降低预测速度。递归方法通常通过掩码[39]或通过隐藏表示[20,47]从最近的帧传播信息。这些方法容易漂移,并与遮挡作斗争。最近的最先进的VOS方法使用注意[36,18,54,9,60]来将存储在特征存储器中的过去帧的表示与从需要分割的新观察到的查询帧中提取的特征相关联。尽管这些方法的性能很高,但它们需要大量的GPU内存来存储过去的帧表示。在实践中,他们通常很难在消费级硬件上处理超过一分钟的视频。
有专门为长视频中的VO设计的方法[29,27]。然而,他们经常牺牲分割质量。具体地说,这些方法通过将新特征与已存储在特征存储器中的特征合并来在特征存储器插入期间减小表示的大小。由于高分辨率特征被立即压缩,它们产生的分割精度较低。图1显示了短/长视频数据集中GPU内存消耗与分割质量之间的关系(详细信息见4.1节)。
我们认为,这种性能和GPU内存消耗之间的不良关联是使用单一功能内存类型的直接结果。为了解决这一限制,我们提出了一种称为XMem的统一存储体系结构。受阿特金森(Shiffrin)记忆模型[1]的启发,该模型假设人类的记忆由三个组成部分组成,XMem保持着三个独立但紧密联系的特征记忆存储:快速更新的感觉记忆,高分辨率的工作记忆,以及紧凑的持续的长期记忆。在XMem中,感觉记忆对应于GRU[11]的隐藏表示,它每一帧都会更新。它提供了时间平滑,但由于表示漂移而无法进行长期预测。作为补充,工作记忆是从历史框架的子集聚集而来,并同等地考虑它们[36,9],而不会随着时间的推移而漂移。为了控制工作记忆的大小,XMem受人类记忆中的巩固机制的启发,例行公事地将其表示整合到长期记忆中[46]。XMem将长期记忆存储为一组高度紧凑的原型。为此,我们开发了一种记忆增强算法,该算法将更丰富的信息聚合到这些原型中,以防止因次采样而产生的混叠。为了从工作和长期记忆中读取信息,我们设计了一种时空记忆读取操作。这三个功能内存存储结合在一起,允许以高精度处理长视频,同时保持较低的GPU内存使用量。
我们发现XMem大大超过了在Long-time Video数据集上的先前最先进的结果[29]。重要的是,XMem在短视频数据集上也与当前最先进的(不能处理长视频的)不相上下[41,57]。总而言之:
- 我们设计了XMem。受Atkinson{Shiffrin记忆模型[1]的启发,我们引入了不同时间尺度的内存库,并为它们配备了内存读取操作,以实现对长视频和短视频的高质量视频对象分割。
- 我们开发了一种记忆巩固算法,它从工作记忆中选择具有代表性的原型,以及一种记忆增强算法,它将这些原型丰富为一个紧凑而强大的表示,用于长期记忆存储。
2.相关工作