基于注意力机制的动作识别与序列推荐综述
基于注意力机制的动作特征表示
在动作识别领域,基于注意力机制的动作特征表示方法有传统方法和深度学习方法。
传统方法通常用于处理 RGB - D 图像或光流图像。RGB - D 图像能区分不同深度层的物体,减少背景干扰,为传统注意力机制的计算提供选择;光流图像包含光的颜色、强度、位置和方向,有助于提取显著特征。例如,Abdulmunem 等人使用 3D - SIFT 和方向光流直方图的组合网络来检测视频帧的显著部分,在 KTH 数据集上的准确率达到 97.2%;He 等人提出手工注意力机制进行特征提取,通过计算相对骨长和关节点与重力之间的角度来分配关节点的权重,最终准确率为 91.18%。
深度学习方法根据输入图像序列,主要分为基于独特注意力机制、协同注意力机制和自注意力机制的人类动作特征表示。
- 独特注意力机制 :只考虑简单序列。如 Huang 等人提出时间注意力机制,通过 RNN 跟踪动作,学习随时间变化的注意力权重,最终选择最相关的帧作为人类动作时间的轨迹,在 NCAA 篮球数据集上注意力机制的映射值为 0.516;Tang 等人提出的时间注意力机制,基于每个观察动作对未来动作预测的贡献动态学习每个观察动作的注意力因素;Wang 等人提出卷积注意力机制,放入时空网络中捕捉视频动作的显著区域,在 UCF - 101 数据集上的准确率为 95.0%。独特注意力机制通常添加到网络的某个域中以增强该域的显著特征。
- 协同注意力机制 :同时操作多个输入序列,学习它们的注意力权重以捕捉这些输入之间的相互作用。例如,Chen 等人提出时空注意力感知(S
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



