Few-shot Action Recognition with Prototype-centered Attentive Learning阅读笔记

针对类间重叠和孤立样本问题,提出一种以原型为中心的注意学习模型,利用自注意力和交叉注意力减少类间差异,通过计算每个原型到所有查询样本的距离来改进匹配机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

遇到的问题

在这里插入图片描述
相同类间存在交叉,还会存在一些外围的孤立样本,这种数据分布对于小样本识别而言会产生很大的影响。因此作者提出采用transformer中的自注意力来减轻这些限制。同时作者认为,以query样本为中心的匹配机制缺乏数据有效性,没有充分利用有限数据之间的分布关系,因此提出了一个以原型为中心的匹配作为补充。

方法

在这里插入图片描述
作者提出了一个原型为中心的注意学习模型,解决了类间重叠和外围孤立样本的问题。
1、 提出了HAL混合注意力学习,在支持集上应用自监督,在从查询集到支持集上应用交叉监督,从而降低类间差别
2、 提出了prototype-centered learning策略,反向实现query视频和prototype的匹配,比较每个原型和所有query样本的距离,将属于同一类的视为正样本,其余为负样本,充分利用了少量样本来进行分类。

embeddings network

作者通过实验发现,选择特征提取网络对于分类性能来说是十分重要的,作者选取了TSN作为特征提取网络。采用TSN中的稀疏采样策略,对视频进行采样,对于采样后的帧独立输入网络提取特征,最后通过average所有帧特征得到视频级的特征。将TSN在训练集上先进行预训练可以很好的提高模型效果,之后再进行元学习。

Hybrid Attentive Learning

在这里插入图片描述

1. self-attention on support set

作者在支持集上采用了self-attention,相同类别的特征比不同类别的应该具有更高的相似性。通过自注意力学习,模型加强了类敏感信息的重要性;同时由于外部孤立样本造成的影响也可以得到有效的控制。
HAL输入的为三元组(query,key,value),作者通过W_Q、W_K、W_V三个参数得到Q、K、V,即X_s分别与三个参数相乘。
计算query和key的相似度,将相似度作为权重与value相乘进行加权求和,即得到self-attention值,公式(2)中采用了残差学习,从而保证模型稳定收敛。

2. cross-attention from support to query

在query集上进行交叉注意力,由于query视频需要通过support样本映射到label空间,因此作者提出在query集上进行cross-attention。和support集上的self-attention相似,query集样本的文本信息也得到了加强。

Learning Objective

传统的方法取每个类的均值作为prototype,计算每个query样本到所有prototype的距离,将距离最近的prototype类别作为query样本类别。而作者认为该操作没有充分利用有限样本,忽视了样本之间的分布。因此作者提出以prototype为中心,计算每个prototype到所有query样本的距离,将距离prototype近的视为正样本,其他为负样本。在此种方式下,相同类直接的变化或被缩减,同时更好地分开不同类样本,将该方式作为query-centered的补充,损失函数定义如公式(4)。

在这里插入图片描述

结果

在这里插入图片描述

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秃头嘤嘤魔

感谢厚爱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值