【OpenVI—论文解读系列】达摩院快速动作识别TPS ECCV论文深入解读

阿里开发者

于 2023-06-29 10:15:36 发布

阅读量220

点赞数

CC 4.0 BY-SA版权

文章标签： rocketmq 物联网大数据开源 odps

原文链接：https://developer.aliyun.com/article/1191077?utm_content=g_1000374683

本文提出了一种不增加计算量和参数的时空自注意力Transformer，与2DTransformer相比，它能实现时空注意力而性能更优。该方法在多个视频理解任务上表现出色，如Sthv1,Sthv2,Kinetics400和Diving48数据集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、背景

许多工作尝试对时空自注意力进行分解，例如ViViT和Timesformer。这些方法虽然减小了计算复杂度，但会引入额外的参数量。本文提出了一种简单高效的时空自注意力Transformer，在对比2D Transformer网络不增加计算量和参数量情况下，实现了时空自注意力机制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。文章已被ECCV 2022录用。

二、方法

视觉Transofrmer通常将图像分割为不重叠的块(patch)，patch之间通过自注意力机制(Self-Attention)进行特征聚合，patch内部通过全连接层(FFN)进行特征映射。每个Transformer block中，包含Self-Attention和FFN，通过堆叠Transformer block的方式达到学习图像特征的目的。

完整内容请点击下方链接查看：

【OpenVI—论文解读系列】达摩院快速动作识别TPS ECCV论文深入解读-阿里云开发者社区

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容