本文记录了博主阅读论文《Conditional Random Fields as Recurrent Neural Networks》的笔记,代码。更新于2019.04.21。
文章目录
Abstract
诸如语义分割的像素级标签任务在图像理解领域非常重要。用神经网络解决分割问题一个重要的困难是如何描绘视觉目标。为了实现这个目的,这篇文章将CNN和CRF结合在一起。To this end, we formulate mean-field approximate inference for the Conditional Random Fields with Gaussian pairwise potentials as Recurrent Neural Networks.(这句话没看懂)
这个提出的CRF-RNN是作为神经网络的一个插件,用于同时获取CNN和CRF中所需要的属性。重要的是,这篇论文中提出的方法将CRF完全建模进CNN,从而使得网络可以用平常的反向传播算法进行端到端训练,避免了用于目标描绘的后处理方法。
Introduction
诸如语义分割和深度估计等底层计算及视觉问题,通常需要给图像中的每个像素点分配一个标签。尽管像素点个体的分类非常重要,但是为了更高精度和准确率的类别分配,还需要考虑诸如图像边界(image edges)、外观一致性(appearance consistency)和空间一致性(spatial consistency)等同等重要的问题。
对于像素标注问题,设计强大的特征描述是一个关键挑战。
Related Work
Conditional Random Fields
这一部分先简单介绍一下用于像素级标注的条件随机场(CRF, Conditional Random Fields),并说明本文中用到的符号。用于像素级标注估计的上下文中的CRF,将像素标签建模成马尔科夫随机场(MRF,Markov Random Field)中的随机变量。全局观测(global observation)通常视为图像。
用 X i X_i Xi表示与像素 i i i相关的随机变量,其代表了分配给像素 i i i的类别,可以是预定义好的类别集合 L = { l 1 , l 2 , … , l L } \mathcal L=\{l_1,l_2,\dots,l_L\} L={ l1,l2,…,lL}中的任何一个值。用 X \bf X X表示由随机变量 X 1 , X 2 , … , X N X_1,X_2,\dots,X_N X1,X2,…,XN组成的向量,其中 N N N代表图像内元素的个数。
给定一个图(Graph) G = ( V , E ) G=(V,E) G=(V,E),其中 V = { X 1 , X 2 , … , X N } V=\{X_1,X_2,\dots,X_N\} V={ X1,X2,…,XN};再给定全局观测(图像) I \bf I I。那么,pair ( I , X ) (\bf I,X) (I,X)就可以由吉布斯分布(Gibbs distribution)建模成一个具有CRF特点的,形如 P ( X = x ∣ I ) = 1 Z ( I ) exp ( − E ( x ∣ I ) ) P(\mathbf {X=x\vert I})=\frac{1}{Z(\mathbf I)}\text{exp}(-E(\mathbf {x\vert I})) P(X=x∣I)=Z(I)1exp(−E(x∣I))。这里 E ( x ) E(\bf x) E(x)成为配置 x ∈ L N \mathbf x\in\mathcal L^N x∈LN的能量, Z ( I ) Z(\bf I) Z(I)是配分函数(partition function)。后面为了方便省略标注 I \bf I I。

最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=89249699&d=1&t=3&u=d756636a3fd049af8042bf00eddac0d3)
1020





