梯度
初始化的影响

同样的网络,同样的参数,初始化不同,梯度下降的速度不同,得到最小值也不同,如上图。
学习率的影响
学习率影响收敛的速度,初始情况下可以设置的大一些,不收敛在设置的小一些。
动量

梯度下降的时候,可能到达局部最优的情况,这时候给一个动量,用惯性冲出局部最优的情况。
常见公式求解梯度




激活函数
derivative

特点:在
z
=
0
z = 0
z=0处不可导
Sigmoid Logistic
特点:将
z
z
z从
(
−
∞
(- \infty
(−∞
,
∞
)
, \infty)
,∞)拉回到
(
0
,
1
)
(0,1)
(0,1),且可导

对
w
w
w求导结果也一样。
Tanh


RELU

神经网络中常用,原因在于
z
<
0
,
z<0,
z<0,梯度为0,
z
>
0
,
z>0,
z>0,梯度为1,这样传递的时候梯度变化不大,得到了比较好的保留。
Softmax

用于分类,且保证所有概率相加为1,而使用sigmod相加最大为3
另一个作用是金字塔作用,2/1=3,0.7/0.2=3.5;将差距拉的更大,将小的压缩到更小。


总结
pytorch实现

本文探讨了梯度初始化和学习率对神经网络训练的影响,分析了动量在避免局部最优的作用。详细介绍了Sigmoid、Tanh、ReLU、Softmax等激活函数的特点及求导过程,强调了它们在神经网络中的应用。
1178

被折叠的 条评论
为什么被折叠?



