参考:《HED:Holistically-Nested Edge Detection》原文翻译
【论文阅读】(边缘检测相关)HED:Holistically-Nested Edge Detection
目录
2 Holistically-Nested Edge Detection
2.1Existing multi-scale and multi-level NN
(2)skip-layer network learning
(3)Single model on multiple inputs
(4)Training independent networks
(5)Holistically-nested networks
3.1 Trimmed network for edge detection
Abstract
作者提出这个新的边缘检测算法,解决了两个重要的存在较久的问题:(1)整体图像的训练和预测(2)多尺度和多层次特征学习
作者说他们提出的方法,holistically-nested edge detection(HED)通过利用全卷积神经网络和深监督网络的深度学习模型来实现image-to-image的预测。
HED自动地学习丰富的层次表征(在side responses的引导下),这对于解决边缘和目标边界检测的challenging ambiguity(模糊性) 很重要
1 Introduction
作者指出:使用“holistic”是因为HED致力于训练和预测边缘以一种图像对图像(image-to-image)的方式;对于“nested”,我们强调作为边输出的继承的和逐渐健全的边缘图。(这种层次特征的综合学习与以前的多尺度方法不同,其中尺度空间边缘场既不是自动学习的,也不是分层连接的)
作者说:我们提出HED这种方法解决两个关键问题:(1)整体图像的训练和预测;(2)嵌套的多尺度特征学习
2 Holistically-Nested Edge Detection
2.1Existing multi-scale and multi-level NN
(1)Multi-stream learning
一个经典的多尺度学习架构,如图(a)所示,需要注意的是,并行的网络流之间有不同的参数和接受域尺寸。输入数据同时传入各个网络流,在将各网络流的输出的特征图拼接后喂入全局的输出层并输出最终结果。
(2)skip-layer network learning
不同于(1),skip-net的结构以主流为中心。添加(跳跃)链接来合并主网络流中不同层级的特征信息,这些特征响应都别合并到一个共享的输出层中。
上述两种方法的共同点是只有一个输出损失函数和其产生的单一预测。然而,在边缘检测中,获得多个预测结果来合并边缘图,是流行的。
(3)Single model on multiple inputs
为了获得多尺度的预测,可以将多个尺度不一的图像输入单一网络。
(4)Training independent networks
作为(a)的极端变体,训练多个独立的具有不同深度和损失函数的网络实现多尺度预测,这种会很难实施,这种重复会增加训练所需的资源量。
(5)Holistically-nested networks
本文提出的算法结构,可以看作是由(d)演化而来,整体结构是由多个侧输出的单流网络
3 Network Architecture
3.1 Trimmed network for edge detection
我们仍然采用VGGNet的网络,但也做了如下改变:
(1)将侧边输出连接到每个阶段的最后一个卷积层,分别为conv1_2, conv2_2, conv3_3, conv4_3, conv5_3这些卷积层的感知野尺寸与对应的side-output layer完全相同
(2)把VGGNet中最后一个(stage)第五池化层和全连接层去掉一是最后一个stage的图太小,插值后的预测图太模糊用不了, 二是全连接层消耗计算资源太多
最终HED的网络结构设置为
3.2 Architecture alternatives
FCN and skip-layer architecture:作者先利用FCN-8s进行边缘检测,效果不好;作者思考是否可以通过添加更多来自低层的链接来提升性能,作者通过添加额外的链接from pool1 and pool2,创造出的FCN-2s性能依然落后于HED
随着FCN的大量调整,人们才有可能在边缘检测上获得有竞争力的性能,但HED中的多尺度side output被认为是自然且直观的边缘检测。
The role of deep supervision:(1)加权融合监督和deep supervision训练,(2)仅加权融合监督训练。本文观察到,在deep supervision下,嵌套的side output 是自然而直观的,获得的边缘图是由粗略到精细,从局部到整体的。另一方面,仅利用加权融合输出损失的训练给出了缺乏这种可辨别的顺序的边缘预测:在较高层side output处不存在许多临界边缘;在完全相同的实验设置下,基准数据集的结果(表格2的第三行)在F-score中仅略有差异,但显示出严重退化的平均精度;如果没有跨多个尺度的直接控制和指导,该网络严重偏向于学习大型结构边缘。
4 Expeiments
5 Conclusion
在本文中,本文开发了一种新的基于卷积神经网络的边缘检测系统,该系统在自然图像上展示了先进的性能。其实际相关的速度(例如,使用GPU为0.4秒,使用CPU为12秒)。本文的算法建立在完全卷积神经网络的思想之上和deep supervision的网络。本文还通过采用预先训练的修剪后的VGGNet来初始化本文的网络结构和参数。本文的方法通过结合多尺度和多级视觉响应,在执行图像到图像学习方面显示出较好的结果,即使没有实施明确的上下文和高级信息.
6 思考
关于本文的创新点,我感觉主要在于如何进行网络多尺度信息的融合,者提出了侧边网络结构,实现了多尺度多水平的特征学习。
它的网络结构有有点像UNet,因此Unet中在decoder阶段也设置成side_out,或许可行,Unet的skip部分也是可以改进的一个点。
同样unet++的深监督也与HED类似(DeepLearing—CV系列(十七)——图像分割模型U-Net、U-net++、U^2-Net、DeepLab的理论详解)