[CVPR 2021] 利用时序差分进行动作识别的最新Backbone--TDN

本文介绍了一种新的动作识别方法——时间差分网络(TDN),通过结合RGB和时间差异信息,有效地捕获短期和长期运动特征。TDN包括短时和长时两个模块,S-TDM用于局部运动建模,L-TDM则用于长时运动建模,实现在Something-Something数据集上取得新的state-of-the-art性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TDN: Temporal Difference Networks for Efficient Action Recognition

arxiv
Github

存在的问题

这是一篇动作识别方向的文章,之前的时空建模方法大致分为两种,一种是双流网络,一个RGB流一个光流,利用光流捕获运动信息,计算量很大;另一种方法是使用3D卷积,从RGB信息中隐式学习运动特征,但是3D卷积在时间维度缺乏特定的考虑(3D卷积学出来的时序weight的分布基本一致,更多的还是对时序上的信息做一种平滑聚合)且需要更多的算力。也有使用RGB Difference作为另一个输入,作为光流的替代品,训练不同的网络与RGB信息融合。

解决办法

作者提出Temporal Difference Network(TDN),来提取多尺寸的时间信息(multi-scale temporal information),TDN作为一个统一的框架来联合捕获RGB和运动信息,通过将时间差异的思想概括为端到端网络的有原则且高效的时间模块。之前有双流(RGB+帧差),我理解的是作者将帧差这一流改成了一个框架(大致思想和帧差类似),并且可以提取短时和长时两种特征来增强信息。
作者认为短期和长期时间信息对于动作识别都至关重要,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值