Few-shot Action Recognition with Prototype-centered Attentive Learning阅读笔记_clip-guided prototype modulating for few-shot acti-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42486554/article/details/114301104

针对类间重叠和孤立样本问题，提出一种以原型为中心的注意学习模型，利用自注意力和交叉注意力减少类间差异，通过计算每个原型到所有查询样本的距离来改进匹配机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

遇到的问题

在这里插入图片描述
相同类间存在交叉，还会存在一些外围的孤立样本，这种数据分布对于小样本识别而言会产生很大的影响。因此作者提出采用transformer中的自注意力来减轻这些限制。同时作者认为，以query样本为中心的匹配机制缺乏数据有效性，没有充分利用有限数据之间的分布关系，因此提出了一个以原型为中心的匹配作为补充。

方法

在这里插入图片描述
作者提出了一个原型为中心的注意学习模型，解决了类间重叠和外围孤立样本的问题。
1、提出了HAL混合注意力学习，在支持集上应用自监督，在从查询集到支持集上应用交叉监督，从而降低类间差别
2、提出了prototype-centered learning策略，反向实现query视频和prototype的匹配，比较每个原型和所有query样本的距离，将属于同一类的视为正样本，其余为负样本，充分利用了少量样本来进行分类。

embeddings network

作者通过实验发现，选择特征提取网络对于分类性能来说是十分重要的，作者选取了TSN作为特征提取网络。采用TSN中的稀疏采样策略，对视频进行采样，对于采样后的帧独立输入网络提取特征，最后通过average所有帧特征得到视频级的特征。将TSN在训练集上先进行预训练可以很好的提高模型效果，之后再进行元学习。

Hybrid Attentive Learning

在这里插入图片描述

1. self-attention on support set

作者在支持集上采用了self-attention，相同类别的特征比不同类别的应该具有更高的相似性。通过自注意力学习，模型加强了类敏感信息的重要性；同时由于外部孤立样本造成的影响也可以得到有效的控制。
HAL输入的为三元组（query，key，value），作者通过W_Q、W_K、W_V三个参数得到Q、K、V，即X_s分别与三个参数相乘。
计算query和key的相似度，将相似度作为权重与value相乘进行加权求和，即得到self-attention值，公式（2）中采用了残差学习，从而保证模型稳定收敛。

2. cross-attention from support to query

在query集上进行交叉注意力，由于query视频需要通过support样本映射到label空间，因此作者提出在query集上进行cross-attention。和support集上的self-attention相似，query集样本的文本信息也得到了加强。

Learning Objective

传统的方法取每个类的均值作为prototype，计算每个query样本到所有prototype的距离，将距离最近的prototype类别作为query样本类别。而作者认为该操作没有充分利用有限样本，忽视了样本之间的分布。因此作者提出以prototype为中心，计算每个prototype到所有query样本的距离，将距离prototype近的视为正样本，其他为负样本。在此种方式下，相同类直接的变化或被缩减，同时更好地分开不同类样本，将该方式作为query-centered的补充，损失函数定义如公式（4）。

在这里插入图片描述