深度监督(Deep Supervision)又称为(中继监督 intermediate supervision),就是在深度神经网络的某些中间隐藏层加了一个辅助的分类器作为一种网络分支来对主干网络进行监督的技巧,其实就是在网络的中间部分添加了额外的loss,跟多任务是有区别的,多任务有不同给的GT计算不同的loss,而深度监督的GT都是同一个GT,不同位置的loss按系数求和。深度监督的目的是为了浅层能够得到更加充分的训练,解决深度神经网络训练梯度消失和收敛速度过慢等问题。
深度监督作为一个训练技巧在2014你那就通过DSN《Deeply-Supervision Nets》提出来。
DSN的一个缺点在于使用的网络结构不够深,且辅助的分类器为传统的SVM模型。但是对于极深网络而言则会由于梯度反向传播过程中的“梯度消失”问题,导致网络收敛缓慢或者不收敛或收敛到局部最优解。2015年《Training Deeper Convolutional Networks with Deep Supervision》尝试在更深层结构中使用深度监督技巧。
通常增加神经网络的深度可以一定程度上提高网络的表征能力,但随着深度加深,会逐渐出现神经网络难以训练的情况,其中包括像梯度消失和梯度爆炸等现象。为了更好的训练深度网络,可以尝试给神经网络的某些层添加一些辅助的分支分类器来解决这个问题。这种辅助的分支分类器能够起到一种判断隐藏层特征层质量好坏的作用。
深度监督网络(DSN)可以提高隐藏层学习过程的直接性和透明度。
- 影响中间层的透明度具有整体分类;
- 学习特征的辨别力和稳健性,特别是在期阶段;
- 面对消失的梯度训练有效性。
DSN的核心思想是为隐藏层提供集成的直接监督层,而不是仅在输出层提供监督,并将此监督传播回早期层的标准方法。通过为每个隐藏层引入伴随目标函数来提供这种集成的直接隐藏层监督,这些伴随目标函数可以被视为学习过程中的附加(软)约束。
使用来自随机梯度方法的分析技术来研究限制性设置,其中并入伴随目标函数直接导致提高的收敛率。
- 对于小型训练数据和相对较浅的网络,对于分类准确性和学习特征问题,深度监督可以提供强大的“正则化”。
- 用于大型训练数据和更深层次的网络深度监控使得利用极深度网络可以通过改善其他有问题的收敛行为来使的性能增益提升。
通过深度监督来解决深度网络难以训练的问题,那么监督分支结构应该加在神经网络的什么位置,论文作者根据一些经验法则和实验给出了结论,作者先是把深监督放在网络最后一层,然后跑10-50次迭代,绘制出中间层的平均梯度值。最后作者将监督分支添加在平均梯度消失(原文中平均梯度小于10_(-7))的那一层。随迭代次数变化的各卷积层的平均梯度值如下图所示。可以看到,Conv1-4层在迭代次数增加时平均梯度值都要小于10_(-7)。

深度监督网络(DSN)是在深度神经网络的中间隐藏层加入辅助分类器以改善训练的一种技巧。这种方法通过为隐藏层提供直接监督,解决了梯度消失问题,并提高了训练效率。然而,它可能影响深度网络的分层特征表达能力。
最低0.47元/天 解锁文章
286

被折叠的 条评论
为什么被折叠?



