VideoLSTM和Time-Aligned DenseNet

本文介绍了VideoLSTM,它结合了Conv LSTM和Attention机制,用于视频行为识别。VideoLSTM通过Conv LSTM保留空间信息,用Attention map聚焦关键区域。此外,文章还探讨了Time-Aligned DenseNet,利用卷积网络解决时间序列问题,避免了RNN的梯度消失和冗余输入问题,适用于视频特征的时间建模。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

VideoLSTM

论文下载:https://arxiv.org/pdf/1607.01794.pdf

本文的主要创新点是在Attention LSTM的基础上引入了Conv LSTM。本文将Conv LSTM + Attention的结构称为VideoLSTM

Introduction

我们知道Conv-LSTM是在15年提出用于预测天气的,conv-lstm将传统的lstm的隐藏单元替换为了feature map,并且将hidden到hidden的映射替换成卷积。我们知道传统的 fc-lstm网络中,输入到lstm的是具有抽象语义信息的全连接层特征,所以无论是输入到hidden的映射还是hidden到hidden的映射,都会忽略输入图像中的空间信息。而conv-lstm网络是将feature map 输入到lstm中,feature map 中保留着输入的空间结构信息,所以当前的输入会与历史信息中相同的空间区域进行作用,能够描述不同空间区域的局部变化。同时hidden-hidden的映射采用卷积的方式,在局部运动发生偏移的时候也可以检测到,小的卷积核可以检测到小的行为偏移,大的卷积核可以检测到大的行为偏移。
一方面作者希望可以利用LSTM的时序信息建模能力来提取视频帧之间的时序信息,另外一方作者希望可以将feature map这样的二维层编码的空间信息输入到网络,所以就是让人自然而然地想到了conv-lstm,同时对于运动的定位可以在很大程度上帮助动作识别,所以作者利用motion信息进行注意力的图的计算。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值