HAMLET: A Hierarchical Multimodal Attention-based Human Activity Recognition Algorithm
Md Mofijul Islam, Tariq Iqbal
文章简介
两位作者均来自美国弗吉尼亚大学,系统与环境工程学院。
Email: {mi8uu,tiqbal}@virginia.edu
文章中了IEEE-IROS 2020,机器人领域四大顶会之一。
问题情景
Human activity recognition(HAR),在人机交互的过程中,机器人可以通过不同的传感器获得各种模态的信息,但是如何利用不同模态的信息实现人行为识别仍然是一个具有挑战性的问题,因为到目前为止,并没有一个很好的方法可以把多模态信息融合到一起,fusion一直是多模态领域需要突破的方向。目前比较主流的融合方法包括concatenation, sum w/o wight以及基于attention机制的multi-head transformer layer。
如上图所示,attention机制会给予重点的帧更多的注意力,有助于动作的识别和判定。
网络架构
整个网络主要分为三个层次,分别是单模态编码层、多模态融合层以及感知层