【OpenVI—论文解读系列】达摩院快速动作识别TPS ECCV论文深入解读

本文提出了一种不增加计算量和参数的时空自注意力Transformer,与2DTransformer相比,它能实现时空注意力而性能更优。该方法在多个视频理解任务上表现出色,如Sthv1,Sthv2,Kinetics400和Diving48数据集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、背景

 许多工作尝试对时空自注意力进行分解,例如ViViT和Timesformer。这些方法虽然减小了计算复杂度,但会引入额外的参数量。本文提出了一种简单高效的时空自注意力Transformer,在对比2D Transformer网络不增加计算量和参数量情况下,实现了时空自注意力机制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。文章已被ECCV 2022录用。

二、方法

 视觉Transofrmer通常将图像分割为不重叠的块(patch),patch之间通过自注意力机制(Self-Attention)进行特征聚合,patch内部通过全连接层(FFN)进行特征映射。每个Transformer block中,包含Self-Attention和FFN,通过堆叠Transformer block的方式达到学习图像特征的目的。

完整内容请点击下方链接查看: 

【OpenVI—论文解读系列】达摩院快速动作识别TPS ECCV论文深入解读-阿里云开发者社区

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《                                                阿里云开发者社区用户服务协议》和《                                                阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写                                                侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值