达摩院快速动作识别TPS ECCV论文深入解读

转载于 2023-05-11 13:24:56 发布 · 137 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://developer.aliyun.com/article/1191077?utm_content=g_1000371533

文章标签：

#深度学习 #人工智能 #计算机视觉 #机器学习 #阿里云

文章提出了一种不增加计算量和参数的新方法，在2DTransformer基础上实现时空自注意力，适用于视频动作识别任务，且在多个数据集上表现出优异性能。该方法通过Self-Attention和FFN处理帧间和帧内的特征，有效学习时空信息，并被ECCV2022录用。

一、背景

许多工作尝试对时空自注意力进行分解，例如ViViT和Timesformer。这些方法虽然减小了计算复杂度，但会引入额外的参数量。本文提出了一种简单高效的时空自注意力Transformer，在对比2D Transformer网络不增加计算量和参数量情况下，实现了时空自注意力机制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。文章已被ECCV 2022录用。立即体验：https://vision.aliyun.com/experience/detail?tagName=facebody&children=RecognizeAction

二、方法

视觉Transofrmer通常将图像分割为不重叠的块(patch)，patch之间通过自注意力机制(Self-Attention)进行特征聚合，patch内部通过全连接层(FFN)进行特征映射。每个Transformer block中，包含Self-Attention和FFN，通过堆叠Transformer block的方式达到学习图像特征的目的。

在视频动作识别领域，输入的数据是连续采样的多帧图像(常用8帧、16帧、32帧等）学习视频的时空特征，不仅要学习单帧图像的空间视觉特征，更要建模帧之间的时域特征。本文提出一种基于视觉transformer的高效时空特征学习算法。

完整内容请点击下方链接查看：

达摩院快速动作识别TPS ECCV论文深入解读-阿里云开发者社区

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。