论文笔记 之 Clockwork Convnets for Video Semantic Segmentation)
1,本文解决的问题
应用于单帧的语义分割直接应用于视频时,计算量太大。即如何降低视频语义分割的整体计算量和延迟?
2,本文的方法
通过研究视频各帧在时间上的关联,减少计算量。
1,作者的两个观察
1,深层特征变化比浅层特征慢
图像的像素变化很大,但是场景的语义信息变化很小(深层特征变化比浅层特征慢)
作者设计了一个实验来证明和探究这种现象:
将两帧时间戳t,t-1相近图像输入卷积神经网络(好像是FCN),将其在某个layer输出的特征图St和St-1(尺度:WxHx深度)输入到一个打分层l(score layer)。
l是一个线性层,其预测St和St-1的每一个像素是K个类别的概率,l的输出是Stl和St-1l(尺度:WxHxK)。
将Stl和St-1l改为one-hot-encoding形式,即将概率最大的类别设为1,其余为0。
使用hamming distance(值不同的位的数量) 计算Stl和St-1l的one-hot-encoding形式的difference:dsm

作者计算了不同layer的dsm,结果见表Table1和图Fig2:
ClockworkConvNets视频语义分割

针对视频语义分割计算量大的问题,本文提出ClockworkConvNets模型,利用深层特征变化缓慢的特性,结合自适应时钟机制,减少重复计算,实现高效视频语义分割。
最低0.47元/天 解锁文章
9667

被折叠的 条评论
为什么被折叠?



