Abstract
诸如语义分割之类的像素级标记任务在图像理解中起着核心作用。最近的方法试图利用图像识别的深度学习技术的能力来处理像素级的标记任务。这种方法的一个主要问题是深度学习技术描绘视觉对象的能力有限。为了解决这个问题,我们引入了一种卷积神经网络的新形式,它结合了卷积神经网络(CNNs)和基于条件随机场(CRFs)的概率图形建模的优势。为此,我们将具有高斯成对势函数的条件随机场作为递归神经网络的均值场近似推导。然后将这个称为CRF-RNN的网络作为CNN的一部分插入,以获得具有CNN和CRF的理想特性的深度网络。重要的是,我们的系统将CRF建模与CNN完全集成在一起,使得使用通常的反向传播算法来端到端地训练整个深度网络成为可能,避免了用于对象划分的离线后处理方法。我们将所提出的方法应用于语义图像分割问题,获得了具有挑战性的Pascal VOC 2012分割基准的最佳结果。
1. Introduction
诸如语义图像分割或深度估计的低级计算机视觉问题通常涉及为图像中的每个像素分配标签。尽管用于分类各个像素的特征表示在此任务中起着重要的作用,但是在分配标签以便获得准确和精确的结果的同时,考虑诸如图像边缘,外观一致性和空间一致性之类的因素同样重要。设计