TARN: Temporal Attentive Relation Network for Few-Shot and Zero-Shot Action Recognition(TARN:时间注意力关系网络解决小样本和零样本的动作识别问题)
注:转载请标明出处。相关论文链接:https://xueshu.baidu.com/usercenter/paper/show?paperid=1d1406u0m6590ve06a3f0t300x055344&site=xueshu_se
1 摘要
在本文中,我们提出了一种新颖的时间注意力关系网络(TARN),用于解决小样本和零样本的动作识别问题。我们网络的核心是一种元学习的方法,该方法可以学会比较可变时间长度的表示,即两个不同长度的视频(小样本学习)或一个视频和一个语义表示如单词向量(零样本学习)。
与小样本和零样本动作识别中的其他方法相比,我们的方法有两方面提高:
a)利用注意力机制(attention mechanism)来实现视频的时间对齐;
b)在视频的片段级别上,对已经对齐的表示进行深度度量。
我们采用episode、end-to-end的方式训练我们的网络。该方法不像存储网络那样,需要在目标域中进行网络微调或存储记忆。实验结果表明,该结构在小样本动作识别中优于现有的state-of-the-art方法,并在零样本动作识别中获得了有竞争力的结果。