深度神经网络训练技巧与优化器解析
1. 迁移学习的适用性
迁移学习在小而密集的网络中效果不佳,可能是因为小网络学习的模式较少,而密集网络学习的模式非常特定,不太可能在其他任务中发挥作用。迁移学习在深度卷积神经网络中效果最佳,这类网络倾向于学习更通用的特征检测器(尤其是在较低层)。
2. 无监督预训练
2.1 场景与方法
当你要处理一个复杂任务,但标记的训练数据不多,且找不到在类似任务上训练过的模型时,可尝试无监督预训练。通常,收集未标记的训练数据成本较低,但标记它们成本较高。若能收集大量未标记的训练数据,可使用这些数据训练无监督模型,如自编码器或生成对抗网络(GAN)。然后,重用自编码器的较低层或GAN判别器的较低层,在顶部添加针对你任务的输出层,并使用监督学习(即使用标记的训练示例)对最终网络进行微调。
2.2 发展历程
2006年,Geoffrey Hinton及其团队使用了这种技术,这导致了神经网络的复兴和深度学习的成功。直到2010年,无监督预训练(通常使用受限玻尔兹曼机RBM)是深度网络的常态。在缓解梯度消失问题后,仅使用监督学习训练深度神经网络变得更为常见。如今,当你有复杂任务要解决,没有可重用的类似模型,标记的训练数据少但未标记的训练数据多时,无监督预训练(通常使用自编码器或GAN而非RBM)仍然是一个不错的选择。
2.3 训练方式演变
早期训练深度模型困难,人们使用贪婪逐层预训练技术。先训练一个单层的无监督模型(通常是RBM),然后冻结该层并在其上添加另一层,再次训练模型(实际上只是训练新层),接着冻结新层并添加另一层,再次训练模型,依此类推。如今,
超级会员免费看
订阅专栏 解锁全文
4763

被折叠的 条评论
为什么被折叠?



