Fine-grained Dynamic Network for Generic Event Boundary Detection
提出原因
如下图所示, 通用事件边界是无分类的,包含各种低级和高级语义边界,例如有仅仅通过镜头外观更改的低级边界(检测较为容易,图a),也有具有丰富语义信息,需要深层网络建模才能检测出来的高级边界(图b)。
但以往的方法往往都是提出一个网络架构,对所有的边界信息进行相同的建模,使得计算低级边界时成本也大,并且有可能因为本就能够简单分辨的特征被提取的过于复杂从而导致性能下降,因此本文提出了一种多出口网络,通过自动学习子网分配,允许对各种边界进行自适应推理。对应于低层语义信息的边界,例如镜头变化,仅通过具有浅层的子网来捕获外观信息和简单的时间依赖性。而需要高级语义进行边界识别的边界将遍历整个网络进行深入的时空建模。通过以细粒度的方式推断不同的输入,通用事件边界的处理可以被专门化以增强整个检测系统的性能和效率。
这样做的好处是:考虑到骨干网络f的计算成本明显大于检测器h的计算成本(超过FLOP的10倍),允许更多帧提前退出所获得的效率远远超过了难以检测的样本遍历所有检测器所造成的额外负担。

贡献点
设计了一个网络架构即DyBDet,主要由两个关键设计组成:
1.多出口网络,用于在视频片段级别进行自适应推理;(可以在不需要人工干预的情况下,自动地为视频中的不同片段(即不同时间段或事件)分配适当的子网络(subnet),以便对这些片段中的边界进行更加精确和细致的检测。)
2.多阶差分检测器,通过捕获最具特色的运动模式进行边界检测来实现动态性。(替换了原来简单的帧差检测器)
通用事件边界检测的细粒度动态网络

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



