整篇论文全面回顾了截至2019年基于深度学习的图像分割方法,讨论了各类方法的优缺点,并对未来可能的技术进展提出了展望。详细讨论了超过一百种深度学习分割模型,按其技术贡献分为以下几类:
1、全卷积网络:
这篇论文中提到的全卷积网络(Fully Convolutional Networks, FCN)是最早的基于深度学习的语义分割方法之一。具体内容包括:
FCN的基本原理:由Long等人提出的全卷积网络用于语义图像分割,通过卷积层来替代传统的全连接层,使得模型能够处理任意大小的输入图像,并输出相同大小的分割图。这种网络结构的输出是一张与输入图像同样大小的空间分割图,而不是一个分类分数。
跳跃连接的使用:FCN使用了一种称为“跳跃连接”的技术,将模型末端的特征图与早期层的特征图进行上采样和融合,从而结合深层、粗糙的语义信息和浅层、细致的外观信息,以生成更精确和详细的分割结果。
贡献与局限性:FCN被认为是图像分割领域的一个里程碑,证明了深度网络可以端到端地训练用于语义分割。然而,尽管其有效性和广泛使用,传统的FCN模型也存在一些限制,如实时推断的速度不够快、无法高效地利用全局上下文信息,以及在处理三维图像时的局限性。
2、带有图模型的卷积模型:
这篇论文关于带有图模型的卷积模型主要讨论了如何将概率图模型(如条件随机场CRFs和马尔可夫随机场MRFs)与卷积神经网络(CNN)结合,以增强图像分割的上下文信息和局部化能力。具体内容包括:
模型组合:研究表明,CNN的最后一层输出往往不够精确,尤其是在细节局部化方面。为了改善这一点,许多方法将CNN的输出与图模型结合,通过图模型来优化分割结果。
CRF与CNN的结合:如Chen等人提出的算法,通过将CNN的粗略分数图与全连接CRF结合,显著提高了边界局部化的准确性。CRF被用来处理深度CNN层输出的非精确性,从而增强分割效果。
共同训练的策略:一些研究(如Schwing和Urtasun的工作)提出了联合训练CNN和CRF的方法,以进一步提升分割精度。通过这种方法,模型可以同时优化卷积特征提取和边界细化。
上下文信息的利用:Liu等人提出的模型则探讨了如何将丰富的信息引入到MRF中,通过高阶关系和标签上下文的混合来改善分割效果。
局限性与挑战:尽管结合了图模型的