基于多视图的时空注意力模型用于社会关系理解
1. 相关工作
- 社会关系分析 :社会关系是日常生活中的重要元素。早期,Yang 等人从结构化数据中分析社会关系。后来,一些研究从图像数据中研究人的面部特征来识别社会关系,如 Zhang 等人引入类孪生深度卷积网络从人脸图像对中学习面部特征,Sun 等人使用端到端深度网络融合年龄、头部外观、服装和接近度信息来识别人们的社会关系,但融合方法只是简单地连接这些特征向量。最近,从视频数据进行社会关系分析也逐渐兴起,如 Bojanowski 等人使用脚本和电影在视频中查找演员和动作,Lv 等人引入多视图特征(RGB、光流和音频)并使用后期融合方法。然而,对于人工智能来说,仅用单视图难以理解低级别像素和高级别社会关系空间之间的差距,因此需要提出新的社会关系识别方法。
- 注意力机制 :注意力机制在计算机视觉领域的许多任务中被证明是有益的,如图像或视频字幕、机器翻译和视频分类。这些方法在卷积神经网络(ConvNets)或长短期记忆网络(LSTM)模型之上使用注意力机制引入额外信息,可分为空间和时间注意力机制。例如,空间注意力机制在深度网络使用与空间相关的标签进行训练时,自适应地关注图像的相关区域;时间注意力机制中,注意力门控单元累积求和隐藏状态,并将序列表示为最后一个状态。但在这些方法中,最常见的是在所有时间步上添加最大池化或平均步骤。在本文模型中,引入多个注意力单元来学习不同的隐藏特征。
- 多视图特征融合 :多个视图可以从多个来源或不同特征子集获得。一些研究使用多视图特征拼接(早期融合),如 Poria 等人使用多核学习