SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (2016)
摘要总结
作者提出了一种由编码器网络、相应得解码器和像素级分类层组成得全卷积神经网络,其创新得地方在于解码器对其较低分辨率输入特征图进行上采样的方式。其主要由场景理解的应用程序推动,并且达到了在推理过程中的内存和计算时间方面都很高效的效果。
Instruction
在解码过程中用最大池索引的好处;广泛使用解码技术和FCN;评估了SegNet在两个场景分割任务上的性能。
LITERATURE REVIEW
文献综述了在深度网络之前的语义像素分割方法,所有这些技术的结果表明需要改进分类特征;随着相关数据集的发布,室内RGBD逐像素语义分割也逐步盛行,但是相关方法的共同属性都是使用手工设计的特征对RGB或RGBD图像进行分类;随着深度卷积神经网络在对象分类方面的成功,衍生出来的相关分割技术比手工设计的特征有所改进,但它们描绘边界能力又很差,因此又出现了专为分割而设计的较新的深度架构,主要探索了VGG16分类网络与全卷积网络;多尺度深度架构也同样被追捧,而在最近有关作者独立于segnet提出的在解码器网络中解码的思想,由于其编码器网络由VGG-16网络的全连接层组成,参数巨大,网络训练相当困难。本文作者的工作受到Ranzato等人提出的无监督特征学习架构的启发,同时讨论了学习从低分辨率特征图进行上采样的必要性。
ARCHITECTURE
图1 SegNet网络架构
作者讲述了Segnet的网络结构图以及如何节省子采样后的信息,那就是仅存储最大池化索引。
3.1 Decoder Variants
主要讲述了SegNet-Basic与FCN-Basic,以及SegNet-Basic和FCN-Basic的各种变体。
3.2 Training
使用CamVid道路场景数据集来对解码器变体的性能进行基准测试,对编码器和解码器的权重、学习率、动量、epoch等进行了初始化,采用随机梯度下降方法,目标损失函数为交叉熵损失函数。
3.3 Analysis
使用了三种常用的性能度量:全局精度、类平均精度和并集平均交集来比较不同解码器变体的定量性能,并做出了一定分析。
4.BENCHMARKING
主要讲述了作者量化了SegNet在两个场景分割基准上的性能。
4.1 Road Scene Segmentation
作者选择CamVid道路场景数据集对SegNet进行基准测试
图2 CamVid 白天和黄昏测试样本的结果。
在受控环境中进行训练时,SegNet显示出卓越的性能,特别是其描绘边界的能力。
4.2 SUN RGB-D Indoor Scenes
这部分作者论述了使用Segnet与一些熟知的深度架构在大型SUNRGB-D数据集上的一些比较。
图3 SUNRGB-D数据集对比图
SegNet预测很好地描绘了各种场景及其视点中的对象类的类边界。
5.DISCUSSION AND FUTURE WORK
作者认为人们往往在实践中更关注模型的训练时间而忽视了训练和测试过程中的内存和计算时间等因素,同时他期望未来研究院们能将注意力集中在更具挑战性的室内场景上,未来,他希望利用对分析中收集到的分段架构的理解,为实时应用程序设计更高的架构,同时对估计深度分割架构预测的模型不确定性感兴趣。
6.CONCLUSION
作者最后总结了以下SegNet模型具备的几点优势。