[行为识别]VideoLSTM Convolves, Attends and Flows for Action Recognition

本文介绍了VideoLSTM的两个创新点:一是将乘法操作替换为卷积,保留特征映射的空间关系;二是改进注意力模型,使注意力依据当前帧而非前一帧的隐藏状态进行更新,通过底部LSTM层生成基于运动的注意力。

一、文章主要创新点

1.将乘法变成卷积

用convolution ALSTM(卷积注意力网络)代替传统的ALSTM(注意力网络),说白了就是把LSTM和soft attention模型中所有的乘法都变成卷积,LSTM网络的输入不再是一个向量,而是一个二维的数组,这样可以保存feature map在空间上的关系
这里写图片描述
LSTM内部各个门的更新方程,乘法全部变成卷积
这里写图片描述
注意力模型,也变成卷积
这里写图片描述
这里写图片描述
这里写图片描述

2.改变attention模型

之前的注意力模型都是用当前状态的输入和上一时刻的隐藏状态,
通过加上一层bottom layer(其实就是一层LSTM)

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值