笔者最近在集中时间撰写深度学习图像分割一书,需要对语义分割众多经典论文进行回顾和精读。目前在写第五章:基于U形结构的网络结构设计,从语义分割的开山之作FCN开始,重启精读之路。

随着CNN在图像识别中取得巨大成功,一些经典的图像分类网络(AlexNet、VGG、GoogLeNet、ResNet)也逐渐被应用于更加细分的视觉任务中。很多研究者也在探索如何将分类网络进行改造后用于语义分割的密集预测问题(dense predictions)。在更高效的语义分割网络提出之前,学术界用于密集预测任务的模型主要有以下几个特点:
(1)小模型。早期的网络结构受限于数据量和高性能的计算资源,在设计上一般不会使用过大的模型。
(2)分块训练。分块训练(patchwise training)在当时是图像训练的普遍做法,但该方法对于全卷积网络的训练会显得相对低效,但分块训练的优点在于能够规避类别不均衡问题,并且能够缓解密集分块的空间相关性问题。
(3)输入移位与输出交错。该方法可以视为一种输入与输出的变换方法,在OverFeat等结构中被广泛使用。
(4)后处理。对于神经网络输出质量不高的问题,对输出加后处理也是常见做法,常用的后处理方法包括超像素投影(superpixel projection)、随机场正则化(random field regularization)和图像滤波处理等。
可以看到,早期用于目标检测、关键点预测和语义分割等密集预测问题整体来看有两个缺陷,一是无法实现端到端(end-to-end)的流程,模型整体效率不佳;第二个则是不能做到真正的密集预测的特征:像素到像素(pixels-to-pixels)的预测。
全卷积网络(Fully Convolutional

本文深入解析了FCN网络,这是深度学习语义分割领域的开山之作。文章详细介绍了FCN如何通过将全连接层替换为卷积层实现端到端的像素到像素的密集预测,同时展示了FCN的不同版本(FCN-32s、FCN-16s和FCN-8s)在分割精度上的逐步提升。
最低0.47元/天 解锁文章
660

被折叠的 条评论
为什么被折叠?



