要解决的问题
半监督的视频目标分割
方法
给出一帧或多帧人工标注的分割掩码,学习追踪特定目标的模型,然后将后续的视频序列的所有像素分割为前景与背景
原理
基于一个Fully-CNN,可以连续的传递generic semantic information(在ImageNet上学习,用于前景分割任务),最后学习test sequence的single annotated object的表现
论文贡献
1. 针对一个特定的目标实例,给出一幅标注的图像,对video object segmentation预训练出一个image recognition的模型(首先对一系列带有人工标注目标的视频进行训练,然后在测试阶段,对人工标注单帧图像做fine-tuning)
2. 对视频的每帧进行独立处理,即从每个人工分割的帧得出目标的模型
3. 可以对speed和accuracy进行权衡(可以选择fine-tuning的级别;可以标注更多的帧)
FCN
将最后一层fully connected layer换成一个1*1的convolution,就可以做到训练任何大小的图像(免去了patch-based方法的冗余计算;移除fully connected layer减少了训练的参数)
训练FCN:首先,对大量目标进行训练,构建出一个可以区分前景的模型(offline);然后在test time,对要进行分割的网络做fine-tuning
Criteria for CNN
1. 对目标的准确定位
2. 较少的训练参数
3. 相对较快的测试时间
pixel-wise cross-entropy loss