深度神经网络训练技巧

本文深入分析了神经网络中偏置项初始化为0的影响,以及SELU激活函数相对于ReLU的优势,包括其对梯度消失的缓解和自归一化特性。同时,讨论了在不同场景下选择不同激活函数的考量,如使用tanh和softmax的情况。此外,提出了创建稀疏模型的策略,如l1正则化和dropout技术,并探讨了dropout对训练和推理速度的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

一些问题
将偏置项初始化为0可以吗

  • 可以设置为零,有些人喜欢像初始化权重一样处理偏差项,这样也是可以的。没有太大的区别。

列举SELU激活函数相比ReLU的三个优点

  • 可以使用负值,所以相比使用RELU激活方程,某一给定层的神经元输出平均值,理论上更容易接近于零。这样有助于缓解梯度消失问题。
  • 他总是有一个非零的导数,可以避免影响RELU单元的单元消失问题。
  • 当条件合适时,SELU激活函数可确保模型进行自归一化,从而解决了梯度爆炸与梯度消失问题。

在哪种情况下,你想使用以下每个激活函数:SELU、leaky ReLU、ReLU、tanh、logistic、softmax?

  • SELU激活函数是一个不错的默认选择。
  • 如果对神经网络的速度要求很高,可以用leaky ReLU一个变体代替。
  • tanh如果你需要输出一个介于-1和1之间的数,tanh在输出层比较有效。但是现在在隐藏层的使用频率并不高。
  • 在你需要评估可能性时(比如二进制分类时),逻辑激活函数在输出层比较有效,但是同样在隐藏层中很少使用。(除了变分自动编码器的编码层)
  • softmax在输出层输出互斥类的概率是有效的,但是除了隐藏层以外基本不使用。

列举三种能产生稀疏模型的方法?

  • 一种实现稀疏模型(即大多数权重等于零)的方法是正常训练一个模型,然后将小权重设置为零。为了更稀疏,可以在训练过程中应用l1正则化,这样可以促使优化器更加稀疏。

dropout会减慢训练速度吗?它会减慢推理速度吗(既对新实例进行预测)?MC dropout呢?

  • 确实会减慢训练速度,但是他仅在训练期间打开,因此对推理速度没有影响。MC dropout与训练期间的dropout完全一样,但是在推理过程中它仍然处于运行状态,因此每次推理速度都会稍微放慢。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王蒟蒻

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值