遇到的问题
相同类间存在交叉,还会存在一些外围的孤立样本,这种数据分布对于小样本识别而言会产生很大的影响。因此作者提出采用transformer中的自注意力来减轻这些限制。同时作者认为,以query样本为中心的匹配机制缺乏数据有效性,没有充分利用有限数据之间的分布关系,因此提出了一个以原型为中心的匹配作为补充。
方法
作者提出了一个原型为中心的注意学习模型,解决了类间重叠和外围孤立样本的问题。
1、 提出了HAL混合注意力学习,在支持集上应用自监督,在从查询集到支持集上应用交叉监督,从而降低类间差别
2、 提出了prototype-centered learning策略,反向实现query视频和prototype的匹配,比较每个原型和所有query样本的距离,将属于同一类的视为正样本,其余为负样本,充分利用了少量样本来进行分类。
embeddings network
作者通过实验发现,选择特征提取网络对于分类性能来说是十分重要的,作者选取了TSN作为特征提取网络。采用TSN中的稀疏采样策略,对视频进行采样,对于采样后的帧独立输入网络提取特征,最后通过average所有帧特征得到视频级的特征。将TSN在训练集上先进行预训练可以很好的提高模型效果,之后再进行元学习。
Hybrid Attentive Learning
1. self-attention on support set
作者在支持集上采用了self-attention,相同类别的特征比不同类别的应该具有更高的相似性。通过自注意力学习,模型加强了类敏感信息的重要性;同时由于外部孤立样本造成的影响也可以得到有效的控制。
HAL输入的为三元组(query,key,value),作者通过W_Q、W_K、W_V三个参数得到Q、K、V,即X_s分别与三个参数相乘。
计算query和key的相似度,将相似度作为权重与value相乘进行加权求和,即得到self-attention值,公式(2)中采用了残差学习,从而保证模型稳定收敛。
2. cross-attention from support to query
在query集上进行交叉注意力,由于query视频需要通过support样本映射到label空间,因此作者提出在query集上进行cross-attention。和support集上的self-attention相似,query集样本的文本信息也得到了加强。
Learning Objective
传统的方法取每个类的均值作为prototype,计算每个query样本到所有prototype的距离,将距离最近的prototype类别作为query样本类别。而作者认为该操作没有充分利用有限样本,忽视了样本之间的分布。因此作者提出以prototype为中心,计算每个prototype到所有query样本的距离,将距离prototype近的视为正样本,其他为负样本。在此种方式下,相同类直接的变化或被缩减,同时更好地分开不同类样本,将该方式作为query-centered的补充,损失函数定义如公式(4)。