OTAS: Unsupervised Boundary Detection for Object-Centric Temporal Action Segmentation
1.背景
本文题目为面向对象的时间动作分割的无监督边界检测,以往做无监督事件边界检测,主要分为两大类,一类是聚类,即给每一帧图像分配一个类别标签(1,2,3…)从而实现事件分割;另一类是专注于通过检测指示帧之间最显著变化的边界来生成动作分割,举例如时间自相似矩阵,通过算每一帧之间的余弦相似度来比较帧间差异,从而进行分割,本文用的也是这一类方法。
目前无监督动作分割的研究热点主要是精心设计的聚类或边界选择技术,但该领域中一个关键但研究较少的组成部分位于管道的早期阶段,即,特征提取模块。现有的提取器同等重视视频剪辑中的所有细节。因此,随后的分割可能很容易受到语义上无特征但数值上显著变化的干扰,例如摄像机视角偏移或人类主体的任意大尺度运动。在下图中,我们提供了具体的例子来阐明我们的观察结果。
可以观察到目前最先进的算法ABD,是会把Crack Egg 和 Spoon视为一个事件,并且会错误把Fry Pancake事件分开。因此可以得出结论:尽管已有的方法具有显著的性能,但它们都只考虑全局视觉特征,这使得它们容易受到语义上微不足道但数字上占主导地位的动作变化的影响。与以往的工作不同,本文重点研究了特征提取模块,认为局部