上一篇章,主要介绍了目前图像分割领域常用的基础网络结构,以及总结了十大图像分割算法,本节继续介绍剩余算法。
论文阅读—图像分割方法综述(一)(arXiv:[cs:cv]20200410)
论文阅读—图像分割方法综述(三)(arXiv:[cs:cv]20200410)
4.3 Encoder-Decoder Based Models
另一个流行的用于图像分割的深度模型系列基于卷积编码器-解码器体系结构。 大多数基于DL的分割工作都使用某种编码器/解码器模型,我们将这些工作分为两类:用于一般分割的编码器-解码器模型和用于医学图像分割的编码器/解码器模型(以更好地区分应用)。
3.4.1 Encoder-Decoder Models for General Segmentation
Noh等[43]发表了有关基于反卷积(也称为转置卷积)的语义分割的早期论文。 他们的模型(图11)由两部分组成,一个是使用VGG16的卷积层作为编码器,另一个解码器是将特征向量作为输入并生成像素级类别概率图的反卷积网络。 反卷积网络由反卷积层和反池化层组成,这些层识别逐个像素的类标签并预测分割掩码。 该网络在PASCAL VOC 2012数据集上取得了可喜的性能,并且在当时没有外部数据训练的方法中获得了最高的准确性(72.5%)。

在另一个被称为SegNet的有前途的工作中,Badrinarayanan等人[44]提出了一种用于图像分割的卷积编码器-解码器架构(图12)。类似于反卷积网络,SegNet的核心可训练分段引擎包括一个编码器网络(在拓扑上与VGG16网络中的13个卷积层相同),以及一个相应的解码器网络,其后是按像素分类层。 SegNet的主要新颖之处在于解码器对其较低分辨率的输入特征图进行升采样。具体来说,它使用在相应编码器的最大池化步骤中计算出的合并索引来执行非线性上采样,从而无需学习上采样。然后,将(稀疏的)上采样图与可训练的滤波器进行卷积以生成密集的特征图。与其他竞争性体系结构相比,SegNet的可训练参数数量也明显更少。同一作者还提出了贝叶斯版本的SegNet,以对卷积编码器-解码器网络用于场景分割的固有不确定性建模[45]。

此类别中的另一个流行模型是最近开发的分割网络,高分辨率网络(HRNet)[119]图13。除了像DeConvNet,SegNet,U-Net和V-Net中那样恢复高分辨率表示之外,HRNet还会保持较高的通过并行连接高到低分辨率卷积流,并在分辨率之间反复交换信息,通过编码过程实现分辨率表示。

4.3.2 Encoder-Decoder Models for Medical and Biomedical Image Segmentation
最初开发了几种用于医学/生物医学图像分割的模型,这些模型受FCN和编码器-解码器模型的启发。 U-Net [50]和V-Net [51]是两个众所周知的此类体系结构,现在也已在医疗领域之外使用。
Ronneberger等[50]提出了用于分割生物显微镜图像的U-Net。他们的网络和训练策略依靠数据增强来更有效地从可用的带注释的图像中学习。 U-Net体系结构(图14)包括两个部分,一个用于捕获上下文的收缩路径,以及一个能够实现精确定位的对称扩展路径。下采样或压缩部分具有类似于FCN的体系结构,可通过3x3卷积提取特征。上采样或扩展部分使用上卷积,在增加特征图尺寸的同时减少了特征图的数量。来自网络下采样部分的特征图将复制到上采样部分,以避免丢失模式信息。最后,1x1卷积处理特征图,以生成对输入图像的每个像素进行分类的分割图。 U-Net接受了30幅透射光显微镜图像的培训,并且在2015年赢得了ISBI细胞跟踪挑战赛的冠军。

4.4 Multi-Scale and Pyramid Network Based Models
多尺度分析是图像处理中的一个相当古老的想法,已被部署在各种神经网络体系结构中。 这种最突出的模型之一是Lin等人提出的特征金字塔网络(FPN)。它主要是为目标检测而开发的,但后来也应用于分割。 深度卷积神经网络固有的多尺度金字塔层次结构用于以少量额外成本构建特征金字塔。 为了合并低分辨率和高分辨率功能,FPN由自下而上的路径,自上而下的路径和横向连接组成。 然后,通过3x3卷积处理级联的特征图,以生成每个阶段的输出。 最终,自顶向下路径的每个阶段都会生成预测以检测物体。 对于图像分割,作者使用两个多层感知器(MLP)生成MASKS。图16显示了横向连接和自上而下的方式路径通过加法合并。

本文深入探讨了图像分割领域的核心算法,涵盖了编码器-解码器模型、多尺度金字塔网络、R-CNN系列、扩张卷积模型等。通过对比不同模型的优缺点,帮助读者理解图像分割技术的发展脉络。
最低0.47元/天 解锁文章
2636

被折叠的 条评论
为什么被折叠?



