基于注意力机制的动作识别与序列推荐技术解析
1. 基于注意力机制的动作特征表示
1.1 传统方法
传统方法常用于处理 RGB - D 图像或光流图像。RGB - D 图像可区分不同深度层的物体,减少背景干扰,为传统注意力机制的计算提供选择;光流图像包含光的颜色、强度、位置和方向,有助于提取显著特征。
- Abdulmunem 等人使用 3D - SIFT 和方向光流直方图的组合网络来检测视频帧的显著部分,在 KTH 数据集上的准确率为 97.2%。
- He 等人提出手工制作的注意力机制进行特征提取,通过计算相对骨长和关节点与重力之间的角度来分配关节点的权重,准确率为 91.18%。
1.2 深度学习方法
基于注意力机制的人类动作特征表示的深度学习方法主要分为基于独特注意力机制、协同注意力机制和自注意力机制的人类动作特征表示。
1.2.1 独特注意力机制
独特注意力机制通常只考虑简单序列,一般添加到网络的某个域中以增强该域的显著特征。
- Huang 等人提出时间注意力机制,通过 RNN 跟踪动作,学习随时间变化的注意力权重,最终选择最相关的帧作为人类动作时间的轨迹,在 NCAA 篮球数据集上注意力机制的映射值为 0.516。
- Tang 等人提出时间注意力机制,基于每个观察到的运动对未来运动预测的贡献动态学习每个观察到的运动的注意力因素。
- Wang 等人提出卷积注意力机制,将其放入时空网络中以捕获视频动作的显著区域,在 UCF - 101 数据集上的准确率为 95.0%。
1.2.2 协同注意力机制
协同注意
超级会员免费看
订阅专栏 解锁全文
774

被折叠的 条评论
为什么被折叠?



