摘要:
卷积网络是强大的可视化模型,可以产生特征层次结构。我们展示了卷积网络本身,端到端训练,像素到像素,超过了语义分割的最新技术。我们的关键见解是建立“完全卷积”网络,输入任意大小,用有效推理和学习生产出的相应大小的输出。我们定义并详细说明完全卷积网络的空间,解释它们在空间密集预测任务中的应用,并绘制与先前模型的连接。我们改编当代分类网(AlexNet [19],在VGG网[31],并GoogLeNet [32])为完全卷积网络,通过微调[4]让他们学得语义分割任务。然后,我们定义了一种新颖的架构,它将来自深层粗糙层的语义信息与来自浅层精细层的外观信息相结合,以生成准确而详细的分段。我们的完全卷积网络实现了PASCAL VOC的最先进分割(相对改进率为20%,2012年平均IU为62.2%),NYUDv2和SIFT流量,而典型图像的推断时间不到五分之一秒。
1、简介
卷积网络正在推动识别的进步。 卷积网络不仅改善了整体图像分类[19,31,32],而且还在结构化输出的本地任务上取得了进展。 这些包括边界框对象检测[29,12,17],部分和关键点预测[39,24]以及局部对应[24,9]的进展。
从粗略推断到精细推理的自然下一步是对每个像素进行预测。 先前的方法已经使用了用于语义分割的网络[27,2,8,28,16,14,11],其中每个像素用其封闭对象或区域的类来标记,但是具有该工作所解决的缺点。
图1.完全卷积网络可以有效地学习对每个像素的任务进行密集预测,比如语义分割。
我们证明了一个完全卷积网络(FCN),训练有素的端对端,像素到像素的语义分割超过了现有技术,没有进一步的硬件改善。 据我们所知,这是第一个端对端训练FCN(1)用于像素预测和(2)从监督预训练的工作。 现有网络的完全卷积版本预测来自任意大小输入的密集输出。 学习和推理都是通过密集前馈计算和反向传播一次全图像执行的。 网内上采样层通过子采样池实现网络中的像素预测和学习。
这种方法无论是渐近还是绝对都是有效的,并且排除了对其他工作中的复杂性的需要。 Patchwise训练很常见[27,2,8,28,11],但缺乏完全卷积训练的效率。 我们的方法没有利用预处理和后处理的复杂性,包括超像素[8,16],建议[16,14],或随机字段或局部分类器的事后细化[8,16]。 我们的模型通过将分类网重新解释为完全卷积并从其学习的表示中进行微调,将最近在分类[19,31,32]中的成功转移到密集预测。 相比之下,以前的作品在没有受过监督的预训练的情况下应用了小型网络[8,28,27]。
语义分割面临语义和位置之间的内在张力:全局信息解决了本地信息在何处解决的问题。 深度要素层次结构共同编码局部到全局金字塔中的位置和语义。 我们定义了一个新颖的“跳过”架构,将深度,粗略,语义信息和浅,精细的外观信息结合在4.2节(见图3)。
在下一节中,我们将回顾有关深度分类网络,FCN以及使用convnet进行语义分割的最新方法的相关工作。 以下部分介绍了FCN设计和密集预测权衡,介绍了我们的网络上采样和多层组合的架构,并描述了我们的实验框架。最后,我们在PASCAL VOC 2011-2,NYUDv2上展示了最先进的结果, 和SIFT流程。
2、相关工作
我们的方法借鉴了最近成功的深度网络图像分类[19,31,32]和迁移学习[4,38]。 首先在各种视觉识别任务[4,38],然后在检测上,以及在混合提议分类器模型中的实例和语义分段上展示转移[12,16,14]。 我们现在重新构建和微调分类网络,以直接,密集地预测语义分割。 我们绘制了FCN的空间,并在此框架中定位了历史和近期的先前模型。
完全卷积网络据我们所知,将一个渐开线扩展到任意大小的输入的想法首先出现在Matan等人的脑海中。 [25],它扩展了经典的LeNet [21]以识别数字串。 由于他们的网络仅限于一维输入字符串,Matan等人使用Viterbi解码来获得它们的输出。 沃尔夫和普拉特[37]将信号输出扩展到邮政地址块四个角的二维检测分数图。这些历史着作中的两个都做了推理和学习,完全卷积检测。 宁等人。 [27]定义了一个用于完整卷积推理的秀丽隐杆线虫组织的粗多类分割的预测网。
在当前的多层网络时代,也充分利用了卷积计算。 Sermanet等人的滑动窗口检测。 [29],Pinheiro和Collobert [28]的语义分割,以及Eigen等人的图像恢复。 [5]做完全卷积推理。 完全卷积训练很少见,但Tompson等人有效地使用了它。 [35]学习端到端部分探测器和姿态估计的空间模型,尽管他们没有在这个方法上进行论述或分析。
或者,He等人。 [17]丢弃分类网的非卷积部分以制作特征提取器。 它们结合了提议和空间金字塔池,以产生用于分类的本地化固定长度特征。 虽然快速有效,但这种混合模式无法端到端地学习。
使用convnet进行密集预测:最近的一些研究已经将谨慎应用于密集预测问题,包括Ning等人的语义分割。 [27],Farabet等[8],Pinheiro和Collobert [28]; Ciresan等人的电子显微镜边界预测。 [2]和Ganin和Lempitsky的混合神经网络/最近邻模型的自然图像[11]; 和Eigen等人的图像恢复和深度估计。 [5,6]。 这些方法的共同要素包括:
• 限制容量和感受野的小模型;
• 补丁训练[27,2,8,28,11];
• 超像素投影后处理,随机场正则化,滤波或局部分类[8,2,11];
• 输入移位和输出交织用于密集输出[28,11],由OverFeat [29]引入;
• 多尺度金字塔处理[8,28,11];
• 饱和tanh非线性[8,5,28]; 和
• 集[2,11],
而我们的方法没有这种机制。 然而,我们从FCN的角度研究了补丁训练3.4和“移位 - 缝合”密集输出3.2。 我们还讨论了网络上采样3.3,其中Eigen等人完全连接了预测。 [6]是一个特例。
与这些现有方法不同,我们采用图像分类作为监督预训练,并完全卷积微调,以便从整个图像输入和整个图像真实标签中简单有效地进行调整和扩展深度分类体系结构。
Hariharan等人。 [16]和Gupta等人。 [14]同样使深度分类网适应语义分割,但在混合提议 - 分类器模型中这样做。 这些方法通过对边界框和/或区域提议进行采样来微调R-CNN系统[12],以进行检测,语义分割和实例分割。 这两种方法都不是端到端学习的。
他们分别在PASCAL VOC分割和NYUDv2分割方面取得了最新成果,因此我们直接将我们的独立端到端FCN与第5节中的语义分割结果进行比较。
3、全卷积网络
卷积网络中的每个数据层都是大小为h×w×d的三维数组,其中h和w是空间维度,d是要素或通道维度。 第一层是图像,像素大小为h×w,d个颜色通道。较高层中的位置对应于它们路径连接的图像中的位置,称为它们的感受域。
Convnet建立在翻译不变性的基础之上。 它们的基本组件(卷积,池化和激活函数)在局部输入区域上运行,并且仅依赖于相对空间坐标。 在特定层中的位置(i,j)处写入数据向量的xij,以及用于下一层的yij,这些函数通过以下方式计算输出yij:
其中k称为内核大小,s是步幅或子采样因子,fks确定层类型:卷积或平均池的矩阵乘法,最大池的空间最大值,或激活函数的元素非线性,等等 用于其他类型的图层。
这种功能形式在组合下维护,内核大小和步幅遵守转换规则:
虽然一般的深网计算一般的非线性函数,但只有这种形式的层的网络计算非线性滤波器,我们称之为深滤波器或完全卷积网络。 FCN自然地对任何大小的输入进行操作,并产生相应(可能重新采样的)空间维度的输出。
由FCN组成的实值损失函数定义了任务。 如果损失函数是最终层的空间维度的总和,,它的梯度将是其每个空间分量的梯度的总和。 因此,在整个图像上计算的随机梯度下降将与0上的随机梯度下降相同,将所有最终层感受域视为小批量。
当这些感受野显著重叠时,前馈计算和反向传播在整个图像上逐层计算而不是逐个补丁时更有效。
接下来我们将解释如何将分类网转换为产生粗略输出映射的全卷积网络。对于像素级预测,我们需要将这些粗略输出连接回像素。 3.2节描述了OverFeat [29]为此目的引入的一个技巧。 我们通过将其重新解释为等效的网络修改来深入了解这一技巧。 作为一种高效,有效的替代方案,我们在第3.3节中引入了用于上采样的反卷积层。 在3.4节中,我们考虑通过补片采样进行训练,并在4.3节中证明我们的整个图像训练更快,同样有效。
3.1 应用分类器进行密集预测
典型的识别网络,包括LeNet [21],AlexNet [19]及其更深层次的后继[31,32],表面上采用固定大小的输入并产生非空间输出。 这些网的完全连接的层具有固定的尺寸并且丢弃空间坐标。 然而,这些完全连接的层也可以被视为具有覆盖其整个输入区域的内核的卷积。 这样做会将它们转换为完全卷积网络,可以输入任何大小和输出分类图。 这种转变如图2所示。(相比之下,非卷积网,例如Le等人[20]的网络,缺乏这种能力。)
图2.将全连接层转换为卷积层使分类网能够输出热图。 添加图层和空间损失(如图1所示)可生成端到端密集学习的高效机器。
此外,虽然得到的映射等同于特定输入补丁上的原始网络的评估,但是计算在这些补丁的重叠区域上高度摊销。 例如,虽然AlexNet需要1.2 ms(在一个典型的GPU上)来产生227×227图像的分类分数,但全卷积版本需要22 ms才能从500×500图像产生10×10网格输出 ,比现在的方法快5倍以上。
这些卷积模型的空间输出图使它们成为语义分割等密集问题的自然选择。 由于每个输出单元都有可用的基础事实,前向和后向通道都很简单,并且都利用了卷积的固有计算效率(和积极优化)。
AlexNet示例的相应后向时间对于单个图像是2.4ms,对于全卷积10×10输出映射是37ms,导致类似于前向传递的加速。 这种密集的反向传播如图1所示。
虽然我们对分类网络的重新解释为完全卷积产生任何大小的输入的输出映射,但输出维度通常通过二次取样来减少。分类网络子样本以保持滤波器小并且计算要求合理。 这使得这些网络的完全卷积版本的输出变粗,将其从输入的大小减小了等于输出单元的感受域的像素跨度的因子。
3.2 移位和缝合是过滤稀疏
输入移位和输出交错是一种技巧,可以在没有插值的情况下从粗输出产生密集预测,由OverFeat [29]引入。 如果输出被f因子下采样,则输入被移位(通过左和上填充)x像素向右,y像素向下移动,对于每个值(x,y)移位一次 这些f2输入分别通过convnet运行,输出是隔行扫描的,因此预测对应于其感知域中心的像素。
仅改变一个卷积网络的滤波器和层步长可以产生与这种移位和拼接技巧相同的输出。使用输入步幅s考虑一个层(卷积或池化),并使用滤波器权重为fij的后续卷积层(省略该特征尺寸,这里无关紧要)。将下层的输入步幅设置为1可将其输出上采样s倍,就像shift-and-stitch一样。 但是,使用上采样输出对原始滤波器进行卷积不会产生与技巧相同的结果,因为原始滤波器仅看到其(现在是上采样的)输入的减少部分。 为了重现这个技巧,通过将其放大为稀疏过滤器
(使用i和j从零开始)。复制该技巧的全部净输出需要逐层重复这个过滤器放大,直到删除所有子采样。
简单地减少网络中的子采样是一种权衡:过滤器看到更精细的信息,但是具有更小的感知域并且需要更长的时间来计算。 我们已经看到移位和拼接技巧是另一种权衡:在不降低滤波器的接收场大小的情况下使输出变得更密集,但是禁止过滤器以比其原始设计更精细的尺度访问信息。
3.3 上采样是反卷积
将粗略输出连接到密集像素的另一种方法是插值。 例如,简单的双线性插值通过线性映射计算来自最近的四个输入的每个输出yij,该线性映射仅取决于输入和输出单元的相对位置。
在某种意义上,使用因子f的上采样是卷积,其中分数输入步幅为1 / f。 只要f是积分,因此上采样的自然方式是向后卷积(有时称为反卷积),其输出步幅为f。 这样的操作很难实现,因为它简单地反转了卷积的前向和后向通道。因此,通过来自像素丢失的反向传播,在网络中执行上采样以进行端到端学习。
注意,这种层中的去卷积滤波器不需要固定(例如,到双线性上采样),但是可以学习。一叠反卷积层和激活函数甚至可以学习非线性上采样。
在我们的实验中,我们发现网内上采样对于学习密集预测是快速有效的。 我们最好的分割体系结构使用这些层来学习在4.2节中进行精确预测的上采样。
3.4 Patchwise训练是损失抽样
在随机优化中,梯度计算由训练分布驱动。 尽管它们的相对计算效率取决于重叠和小批量大小,但是可以进行补片训练和完全卷积训练以产生任何分布。 整个图像完全卷积训练与补片训练相同,其中每个批次包括低于图像(或图像集合)损失的单位的所有感受域。 虽然这比补丁的均匀采样更有效,但它减少了可能的批次数。 然而,可以简单地恢复图像内的补丁的随机选择。 将损失限制为其空间项的随机采样子集(或者,等效地在输出和损失之间应用DropConnect掩码[36])从梯度计算中排除补丁。
如果保留的补丁仍然具有显着重叠,则完全卷积计算仍将加速训练。 如果在多个后向传递中累积渐变,则批次可以包括来自多个图像的补丁。
补片训练中的采样可以纠正类不平衡[27,8,2]并减轻密集斑块的空间相关性[28,16]。 在完全卷积训练中,也可以通过加权损失来实现类平衡,并且可以使用损失采样来解决空间相关性。
我们在第4.3节中使用采样来探索训练,并且没有发现它为密集预测产生更快或更好的收敛。 整体图像培训是有效和高效的。
4. 分割架构
我们将ILSVRC分类器投射到FCN中,并通过网内上采样和像素丢失来增强它们的密集预测。 我们通过fine -tuning训练细分。接下来,我们构建了一个新颖的跳过架构,它结合了粗糙,语义和局部的外观信息来优化预测。
在本次调查中,我们对PASCAL VOC 2011细分挑战进行了训练和验证[7]。 我们使用每像素多项逻辑损失进行训练,并使用联合上的平均像素交点的标准度量进行验证,其中包括所有类的平均值,包括背景。 训练忽略了在真实标签中被掩盖掉(如模糊或困难)的像素。
4.1 从分级器到密集FCN
我们首先对第3节中经过验证的分类体系结构进行卷积分析。我们认为AlexNet3体系结构[19]赢得了ILSVRC12,以及VGG网络[31]和GoogLeNet4 [32]在ILSVRC14中表现非常出色。我们选择VGG 16层net5,我们发现这相当于此任务的19层网络。对于GoogLeNet,我们仅使用最终损失层,并通过丢弃最终平均池层来提高性能。我们通过丢弃最终的分类器层来斩首每个网络,并将所有完全连接的层转换为卷积。我们附加一个带有通道尺寸21的11卷积来预测每个粗略输出位置的每个PASCAL类(包括背景)的分数,然后是反卷积层,以粗略地将粗略输出上采样到像素密集输出,如上所述在第3.3节中。表1比较了初步验证结果以及每个网的基本特征。我们报告以固定学习率(至少175个时期)收敛后获得的最佳结果。
表1. 在此基础上,对三种分类算法进行了改进和扩展。我们比较了PASCAL VOC 2011验证集上的平均交叉度和推理时间(NVIDIA Tesla K40c上500×500输入的平均20次试验)的性能。我们详细介绍了适用于密集预测的网络架构:参数层数,输出单元的感知区域大小以及网内最粗糙的步幅。 (这些数字表示以固定学习速率获得的最佳性能,而不是最佳性能。)
从分类到分割的微调为每个网络提供了合理的预测。 即便是最糟糕的型号也达到了75%的最先进性能。 分割均衡的VGG网(FCN-VGG16)已经看起来是最先进的,在val上为56.0平均IU,而在测试中为52.6 [16]。 对额外数据的训练将性能提高到val7子集上的59.4平均IU。 训练详情见第4.3节。
尽管分类准确性相似,但我们对GoogLeNet的实现与此分割结果不匹配。
4.2 结合what和where
我们为分割定义了一个新的全卷积网络(FCN),它结合了特征层次结构的各层,并细化了输出的空间精度。 见图3。

图3.我们的DAG网络学习将粗糙的高层信息与精细的低层信息相结合。 图层显示为显示相对空间粗糙度的网格。 仅显示汇集和预测层;省略中间卷积层(包括我们转换的完全连接层)。 实线(FCN-32s):我们的单流网络,在4.1节中描述,上采样在一个步骤中将32个预测步长回到像素。 虚线(FCN-16s):结合最后一层和第4层的预测,在步幅16,让我们的网络预测更精细的细节,同时保留高级语义信息。 虚线(FCN-8s):来自pool3的额外预测,在步幅8处,提供了进一步的精确度。
虽然完全卷积分类器可以按照4.1中的说明进行细分,甚至在标准度量上得分很高,但它们的输出却不尽如人意(见图4)。 最终预测层的32像素步幅限制了上采样输出中的细节尺度。
我们通过添加链接来解决这个问题,这些链接将最终预测层与较低层相结合。 这将线拓扑变为DAG,边缘从较低层向前跳到较高层(图3)。 当他们看到更少的像素时,更精细的尺度预测应该需要更少的层,因此从较浅的净输出中制作它们是有意义的。 结合精细层和粗糙层使模型能够进行局部预测,使其符合全局结构。通过类比Florack等人的多尺度局部喷射[10],我们将非线性局部特征层次称为深射流。
我们首先通过从16像素步幅层预测将输出步幅分成两半。 我们在pool4的顶部添加了一个1×1卷积层以产生额外的类预测。我们将此输出与在步幅32处的conv7(卷积化fc7)之上计算的预测融合,通过添加2个上采样层和求和6两个预测。 (见图3)。 我们将2个上采样初始化为双线性插值,但允许按照第3.3节中的描述学习参数。 最后,将步幅16预测上采样回到图像。 我们称这个网络FCN-16s.FCN-16s是端对端学习的,用最后一个较粗网络的参数初始化,我们现在称之为FCN-32s。作用于pool4的新参数是零初始化的,因此网络以未修改的预测开始。 学习率降低了100倍。
学习这个跳过网可以将验证集上的性能提高3.0平均IU到62.4。 图4显示了输出精细结构的改进。 我们将这种融合仅与来自pool4层的学习(导致性能不佳)进行了比较,并且简单地降低了学习速率而没有添加额外的链接(这导致不显着的性能改进,而没有提高输出的质量)。

图4.通过融合来自不同步幅的层的信息来完善卷积网,改善了分段细节。前三个图像显示了我们的32,16和8像素步幅网的输出(参见图3)。
我们通过融合pool3的预测和融合pool4和conv7的2x预测,建立网络FCN-8,继续这种方式。 我们获得了62.7平均IU的微小额外改进,并且我们的输出的平滑度和细节略有改善。 在这一点上,我们的融合改进已经满足了收益递减,无论是在强调大规模正确性的IU度量方面,还是在图4中可见的改进方面,我们都不会继续融合更低层。
通过其他方式进行细化减少合并图层的步幅是获得更精细预测的最直接方法。 但是,这样做对我们基于VGG16的网络来说是个问题。 将pool5层设置为具有步幅1要求我们的卷积化fc6具有14×14的内核大小以便维持其感知字段大小。 除了计算成本之外,我们还难以学习如此大的过滤器。 我们尝试用较小的过滤器重新构建pool5之上的层,但是没有成功实现相当的性能; 一种可能的解释是,从上层的ImageNet训练的权重初始化很重要。
获得更精细预测的另一种方法是使用第3.2节中描述的shiftand-stitch技巧。 在有限的实验中,我们发现这种方法的改进成本比层融合更差。
4.3 实验框架
优化:我们用SGD进行动力训练。我们使用分别为FCN-AlexNet,FCN-VGG16和FCN-GoogLeNet的20个图像的小批量大小和10-3,10-4和5-5的固定学习率,通过线搜索选择。 虽然我们发现训练对这些参数不敏感(但对学习率很敏感),我们使用动量0.9,体重衰减为5-4或2-4,并使偏差的学习率翻倍。我们对课程评分进行零初始化 卷积层,找到随机初始化,既不会产生更好的性能也不会产生更快的收敛。在原始分类器网络中使用的包括在内。
微调:我们通过整个网络的反向传播来微调所有层。 与表2相比,单独微调输出分类器仅产生完全微调性能的70%。考虑到学习基本分类网络所需的时间,从头开始训练是不可行的。(注意,VGG网络是分阶段训练的, 我们从完整的16层版本初始化。)对于粗FCN-32s版本,单个GPU上的微调需要三天,并且每个版本大约需要一天时间升级到FCN-16和FCN-8s版本。
表2. 在PASCAL VOC 2011的一个验证子集上比较跳跃FCNs。学习是端到端的,除了FCN-32s-fixed,其只有最后一层是微调的。注意FCN32s 就是FCN-VGG16,重命名是为了强调步长。

补丁采样:如第3.4节所述,我们的完整图像训练有效地将每个图像批处理成一个大的,重叠的补丁的reguimagelar网格。相比之下,先前的工作在整个数据集[27,2,8,28,11]上随机采样补丁,可能导致更高的方差批次,这可能加速收敛[22]。我们通过以前面描述的方式对损失进行空间采样来研究这种权衡,做出一个独立的选择,忽略每个最终的层单元,概率为1?p。为避免更改有效批量大小,我们同时将每批次的图像数量增加1 = p。注意,由于卷积的效率,这种形式的拒绝采样仍然比针对足够大的p值的补片训练更快(例如,根据3.1节中的数字,至少p> 0:2)。图5显示了这种采样形式对收敛的影响。我们发现,与整个图像训练相比,采样对收敛速度没有显着影响,但由于每批需要考虑的图像数量较多,因此采用的时间要长得多。因此,我们在其他实验中选择非抽样,全图像训练。
类别平衡:完全卷积训练可以通过加权或抽样来平衡班级。 虽然我们的标签是轻度不平衡的(大约3/4是背景),但我们发现不需要课堂平衡。
密集预测:通过网络内的反卷积层将分数上采样到输入维度。 最终层反卷积滤波器固定为双线性插值,而中间上采样层初始化为双线性上采样,然后学习。 不使用Shift-andstitch(第3.2节)或过滤器稀疏等效。
增强:我们尝试通过在每个方向上将图像平移到32像素(最粗略的预测)来随机镜像和“抖动”图像来增加训练数据。 这没有产生明显的改善。
更多培训数据:我们在表1中使用的PASCAL VOC 2011细分挑战训练集标记了1112个图像。 Hariharan等人[15] 已经为更大的8498 PASCAL训练图像收集了标签,用于训练以前最先进的系统SDS [16]。 该训练数据将FCNVGG16验证得分7提高3.4点至59.4平均IU。
实施:所有模型都使用Caffe [18]在单个NVIDIA Tesla K40c上进行培训和测试。 模型和代码将在发布时公开发布。
5. 结果
我们在语义分割和场景解析上测试我们的FCN,探索PASCAL VOC,NYUDv2和SIFT Flow。 尽管这些任务在历史上区分了对象和区域,但我们将它们统一地视为像素预测。 我们在每个数据集上评估我们的FCN跳过架构8,然后将其扩展到NYUDv2的多模态输入和SIFT Flow的语义和几何标签的多任务预测。
度量标准:我们报告来自常见语义分段和场景解析评估的四个度量,这些度量是像素精度和区域交集(IU)的变化。 令nij是预测属于j类的类i的像素数,其中存在ncl个不同的类,并且是类i的像素的总数。 我们计算:
• 像素准确率:
• 平均准确率:
• mean IU:
• frequency weighted IU:
PASCAL VOC:表3给出了我们FCN-8s在PASCAL VOC 2011和2012测试集上的表现,并且对比了之前最先进的网络SDS[16],和闻名的R-CNN[12]。在平均IU9上,我们以20%的相对优势获得了最好的结果。推理时间减少114×(只有convnet,忽略建议和改进)或286×(总体)。
表3. 我们的全卷积网络相对于PASCAL VOC 2011和2012测试集的最新水平有20%的相对改进,并减少了推理时间。

NYUDv2 [30]是使用Microsoft Kinect收集的RGB-D数据集。它有1449个RGB-D图像,像素标签已被Gupta等人合并为40级语义分割任务。 [13]。我们报告了795个训练图像和654个测试图像的标准分割结果。 (注意:所有模型选择都在PASCAL 2011上执行。)表4给出了我们模型在几个变体中的性能。首先,我们在RGB图像上训练未修改的粗糙模型(FCN-32)。为了增加深度信息,我们在升级的模型上训练以采用四通道RGB-D输入(早期融合)。这提供了很少的好处,可能是由于难以在整个模型中传播有意义的梯度。继Gupta等人的成功之后。 [14],我们尝试深度的三维HHA编码,仅对此信息进行训练网络,以及RGB和HHA的“后期融合”,其中两个网络的预测在最后一层求和,结果双流网是端到端学习的。最后,我们将这个后期融合网升级为16步版
表4. NYUDv2上的结果。 RGBD是输入端RGB和深度通道的早期融合。 HHA是[14]的深度嵌入,即水平差异,地面以上的高度,以及局部表面法线与推断的重力方向的角度。 RGB-HHA是联合训练的晚期融合模型,其总结了RGB和HHA预测。
SIFT Flow是2,688个图像的数据集,具有33个语义类别(“桥”,“山”,“太阳”)的像素标签,以及三个几何类别(“水平”,“垂直”和“天空”)。 FCN可以自然地学习同时预测两种类型标签的联合表示。我们学习了具有语义和几何预测层和损失的FCN-16的双头版本。 学习模型作为两个独立训练的模型在两个任务上也表现良好,而学习和推理基本上与每个独立模型本身一样快。 表5中的结果,根据标准计算分为2,488个训练和200个测试图像,10显示了两个任务的最新性能。
表5. SIFT Flow10的结果具有类分割(中心)和几何分割(右)。Tighe [33]是一种非参数传递方法。Tighe 1是示例SVM,而2是SVM + MRF。Farabet是一个多尺度的网络训练课程平衡样本(1)或自然频率样本(2)。Pinheiro是一个多尺度,经常性的信号,表示为RCNN3(3)。几何的度量是像素精度。
图6. 完全卷积分割网络在PASCAL上产生最先进的性能。左栏显示了我们表现最好的网络FCN-8的输出。第二部分显示了Hariharan等人先前最先进系统产生的分割[16]。注意恢复的精细结构(第一行),分离紧密交互对象(第二行)的能力,以及对遮挡物(第三行)的鲁棒性。第四行显示了一个失败案例:网络看到船上的救生衣是人。
6. 结论
全卷积网络是一类丰富的模型,其中现代分类网络是一种特殊情况。 认识到这一点,将这些分类网络扩展到分段,并通过多分辨率层组合改进架构,大大提高了现有技术水平,同时简化并加快了学习和推理。
致谢:这项工作部分得到了DARPA的MSEE和SMISC计划的支持,NSF奖励了IIS-1427425,IIS-1212798,IIS-1116411,以及NSF GRFP,丰田和伯克利视觉与学习中心。 我们非常感谢NVIDIA的GPU捐赠。 我们感谢Bharath Hariharan和Saurabh Gupta的建议和数据集工具。 我们感谢Sergio Guadarrama在Caffe中复制GoogLeNet。 我们感谢Jitendra Malik的有益评论。 感谢Wei Liu指出我们的SIFT Flow意味着IU计算和我们的频率加权平均IU公式中的错误。