深度学习中的正则化与学习策略
1. 无监督预训练
无监督预训练在深度学习中是一种重要的技术,它基于这样一个原理:通过学习生成图像来更好地识别形状。例如,在处理数字识别时,数字具有特定弯曲方式的笔画,解码器通过组合这些常见形状来重构数字,而这些形状对于识别数字也具有判别能力。用少量特征表示数据有助于识别这些特征与类别标签的关系。
1.1 无监督预训练的变体
- 多层同时训练 :可以一次训练多个层,而不是逐层进行预训练。例如 VGG 网络,它可以同时训练多达 11 层。将更多层组合在一起进行预训练有一定优势,因为成功训练神经网络的较大部分可以带来更强大的初始化。但如果在每个预训练组件中组合过多层,可能会导致梯度消失或爆炸等问题。
- 宽松预训练架构 :传统的预训练过程假设自编码器以完全对称的方式工作,即编码器第 k 层的缩减与解码器中对应镜像层的缩减近似相似。但在实际中,不同层使用不同类型的激活函数时,这可能是一个限制性假设。例如,编码器某一层使用 sigmoid 激活函数只会产生非负值,而解码器匹配层使用 tanh 激活函数可能会产生正负值。因此,可以采用宽松预训练架构,分别学习编码器第 k 层和其解码器镜像层的缩减,允许两者不同。在两层之间添加额外的权重层来处理差异,缩减完成后丢弃该层,只保留编码器 - 解码器权重。不过,最内层缩减仍按之前的方式进行。
1.2 有监督预训练
虽然也可以进行有监督预训练,但在某些情况下,有监督预训练的效果不如无监督预训练。有监督预训练在训练深度网络时可能有帮助,例如训练数百层的网络时
超级会员免费看
订阅专栏 解锁全文
3033

被折叠的 条评论
为什么被折叠?



