本文中,利用modulators快速地调整segementation networks使其可以适应特定的物体,而不需要执行数百次的梯度下降;同时不需要调整所有的参数。在视频目标分割上有两个关键的点:视觉外观和空间中持续的移动。为了同时使用视觉和空间信息,将visual modulator和spatial modulator进行合并,在第一帧的标注信息和目标空间位置的基础上分别学习如何调整main segmentation network。

Conditional batch normalization
在batch normalization的基础上,每个scale和bias参数都有第二个网络生成,每一层CBN网络可以如下定义,
yc=γcxc+βc y_c = \gamma_cx_c+\beta_c yc=γcxc

本文提出了一种名为OSMN的高效视频对象分割方法,通过网络调制在网络适应特定物体时减少梯度下降次数,无需大量参数调整。OSMN结合了条件批标准化、视觉和空间调制,利用视觉和空间信息来改善分割效果。视觉调制器从第一帧的标注中学习目标的语义信息,空间调制器利用目标的连续移动来预测位置。实验表明,这种方法在视频目标分割任务中表现出色。
最低0.47元/天 解锁文章
2297

被折叠的 条评论
为什么被折叠?



