为了解决语义级别的图像分割问题,FCN(全卷积网络)对图像进行了像素级的分类。FCN在经过前级的卷积下采样后,采用了反卷积层对卷积得到的最后一个feature map进行上采样,使它恢复到输入图像的尺寸。FCN对每个像素都进行分类,同时保留了原始输入图像的空间信息。最后逐像素计算softmax分类损失,下图为FCN的结构示意图:
我们此次采用了Caffe这一深度学习框架对FCN进行了实现,分别在Person-Segmentation、PASCAL VOC2012和Sift-Flow数据集上面分别进行了训练和测试。下图为FCN在Person-Segmentation数据集上训练后的测试指标:
为了实现更好的分割性能,我们对FCN进行了改进,使用ResNet-50的卷积神经网络进行下采样,这样带来的好处有以下几点:1,加深网络层数,提高了网络的分割精度;2,网络中间可以添加更多的跳转连接,这样就能更好的结合图像的背景语义信息,进行多尺度的分割;3,ResNet具有快速收敛,减小模型数据量的优势;4,ResNet使得模型更加的容易训练,既能防止模型退化,又能防止梯度消失,Loss不收敛。
我们对加入ResNet-50的网络重新进行了训练,下图为训练过程中的Loss收敛曲线:</