《Video Object Segmentation using Space-Time Memory Networks》论文阅读笔记
论文地址:https://openaccess.thecvf.com/content_ICCV_2019/html/Oh_Video_Object_Segmentation_Using_Space-Time_Memory_Networks_ICCV_2019_paper.html
GitHub地址:https://github.com/haochenheheda/Training-Code-of-STM
1. 摘要
对于实际问题,随着中间的预测结果,可用的线索会变得更加丰富,但是已存在的方法并没有充分的利用这个丰富的信息,因此作者提出使用一个记忆网络记录中间的信息,并学习从中读取相关信息,辅助后续帧的分割。
2.整体架构
网络结构主要由memory和query两部分构成。memory用于记录之前帧的信息,query是当前帧的处理过程。

2.1 Encoder&Decoder
其中encoder使用resnet50作为backbone,并在之后接两个平行分支,一个分支使用通道数为128的3x3卷积,生成key map,另一个分支使用通道数为512的3x3卷积,生成value map,需要注意的一点是query encoder的输入是三维的RGB frame,而memory

本文介绍了一种使用空间时间记忆网络(STM)进行视频对象分割的方法。STM网络通过记录历史帧信息来增强预测,其中记忆模块存储中间结果,查询模块处理当前帧。网络结构包括ResNet50作为backbone的编码器和解码器,解码器由残差块和细化模块组成。实验在YouTube-VOS和DAVIS数据集上进行,表明预训练和有效内存管理对性能至关重要。作者还进行了消融研究,验证了模型各个部分的重要性。
最低0.47元/天 解锁文章
6133

被折叠的 条评论
为什么被折叠?



