Full-Stage Pseudo Label Quality Enhancement for Weakly-supervised Temporal Action Localization
冯千涵† 林桐* 北京大学信息科学技术学院,GAI国家重点实验室
李文硕 陈星昊* 华为诺亚方舟实验室
ABSTRACT
- 最新的方法引入了伪标签学习框架,以弥合基于分类的训练与定位推理目标之间的差距
- 在伪标签学习框架中,使用基于分类的模型生成的伪标签,供基于回归的学生模型学习。伪标签的质量影响着检测结果,但并未得到充分研究。
- 在本文中,我们提出了一套简单有效的伪标签质量提升机制,并构建了FuSTAL框架。
- FuSTAL框架在三个阶段增强伪标签的质量
- 在提案生成阶段进行夸视频对比学习。
- 在提案选择阶段基于先验知识对伪标签进行过滤
- 在训练阶段采用EMA(指数平均移动)进行蒸馏学习
通过以上设计在框架的不同阶段提升了为标签的质量。有助于提取生成信息更丰富、错误更少、平滑性更好的动作提案。
1 INTRODUCTION
WTAL:
基于分类的单阶段策略采用注意力机制:35、46基于多实例学习MIL:15\28\29\33\42\55
基于分类的单阶段策略最终的预测通过对小片段进行一系列的后处理操作(包括阈值处理、合并和非极大值抑制),这种人工的后处理设计与直接定位动作的最终目标相差甚远。
两阶段方案[34、60]通过生成伪标签来训练基于回归的学生模型。
先前的工作大多只关注提案生成(人工设计后处理阶段),忽略了在其他阶段生成更优秀提案的潜力,即使在伪标签生成阶段,生成的动作提案也因仅限于单个视频内部的信息而不够丰富。
为了充分利用WSTAL伪标签学习框架中的伪标签潜力,我们将框架视为一个多阶段过程,包括:
- 提案生成阶段用于生成动作提案
- 伪标签选择阶段用于过滤噪声假阳性动作提案
- 训练阶段(Training-Stage)用于基于回归的学生模型训练和提升。
我们认为,仅在提案生成阶段提升动作提案是不够的。因此,我们提出在所有三个阶段增强伪标签或动作提案。
1、在提案生成阶段,我们引入跨视频信息,帮助发现动作的更多本质特征。
①单视频挖掘信息[33\34\55\60]、然而,若仅在单个视频片段中进行对比,一些混淆片段可能被错误分类,因为在一个视频内场景和特征相对相似。
②在其他视频的帮助下,区分目标动作与背景信息更加容易。
-------> RSKP[10]使用视频内部表示更新原始特征,仅用于优化分类。
-------> DCC[19]利用低效的对比学习,但忽视了边界信息,而边界信息正是学生模型所需的关键信息。
我们引入了一种简单而高效的方法,利用跨视频相似性来帮助生成质量更好的动作片段提案。具体来说,我们选择具有相同视频级别标签的视频对,并基于MIL训练挖掘简单和困难的动作与背景嵌入,然后应用对比损失,让一段视频中的困难嵌入接近另一段视频中的简单片段特征。(视频内部对比损失和视频间对比损失)
2、在提案生成阶段之后,先前的框架会直接开始训练基于回归的学生模型,即使有些考虑到提案质量,也仅使用简单的置信度阈值处理。但在生成的提案中仍然存在许多并不与融合真实动作重叠的假阳性,出现这种假阳性的原因是许多背景往往与动作同时出现,从而导致类似的高激活。如果没有合适的提案选择方法,有害的提案就会进入伪标签训练。为了过滤伪标签。
我们在训练阶段之前添加了一个专门设计的选择阶段,用于伪标签过滤。我们分析了这些假阳性的分布,并引入了一种简单而高效的基于先验的机制,以尽可能多地过滤掉假阳性。
做出这种选择机制的原理:
我们发现生成的背景周围的预测往往比那些高度重叠真实动作的预测更稀疏。基于这一先验,我们计算了视频内所有提案的IoU矩阵,并过滤掉所有提出IoU分数较低的提案。只有IoU分数高于阈值的提案才有资格成为学生模型学习的伪标签。
Figure 4 Caption: 提议围绕真实动作片段的密度通常高于背景片段周围的密度。
如图4所示、假阳性的提案与其他提案有很少或没有交集,而正样本与GT或者其他正样本之间有着很高比例的重叠,正成为我们筛选提案的一大准则。
<