[行为识别]RPAN:An end-to-end recurrent pose-attention network for action recognition

本文介绍了ICCV2017年乔宇老师的研究成果——RPAN,它是一种结合姿态注意力机制的端到端RNN,用于视频行为识别。RPAN包括CNN特征生成、姿态注意力机制、LSTM和损失函数四部分。实验表明,姿态注意力机制显著提高了识别效果,且不同CNN和human-part pooling方式也影响网络性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇文章是来自中科院深圳先进院乔宇老师,ICCV2017年的oral文章《RPAN:An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos》。这篇文章的出发点是当前行为识别的一大流行方向:RNN。与之前的video-level category 训练RNN不相同。这篇文章提出了引入pose-attention的RNN。文章总结共有以下几个贡献点

  • 不同于之前的pose-related action recognition,这篇文章是端到端的RNN,而且是spatial-temporal evolutionos of human pose
  • 不同于独立的学习关节点特征(human-joint features),这篇文章引入的pose-attention机制通过不同语义相关的关节点(semantically-related human joints)分享attention参数,然后将这些通过human-part pooling层联合起来
  • 视频姿态估计,通过文章的方法可以给视频进行粗糙的姿态标记。(这个方法还挺不错)。

一、网络结构

整个网络框架可以分成三个大的部分:

  • 特征生成部分:Conv Feature cube from CNN
  • 姿态注意机制:Pose-Attention Mechanism
  • LSTM:RNN网

下面是整体网络结构图。

这里写图片描述

1.1 Convolution Feature Cube from CNN

作者采用了 two-stream CNN[1]的网络框架,生成了convolution

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值