- 博客(5)
- 资源 (27)
- 收藏
- 关注
原创 学习率的其他优化方法
动量法:SGD方法的一个缺点是,其更新方向完全依赖于当前的batch,因而其更新十分不稳定。 momentum即动量,它模拟的是物体运动时的惯性,即更新的时候在一定程度上保留之前更新的方向,同时利用当前batch的梯度微调最终的更新方向。这样一来,可以在一定程度上增加稳定性,从而学习地更快,并且还有一定摆脱局部最优的能力
2022-05-04 12:13:22
764
原创 学习率问题
学习率 ,如果设关于学习率的函数为 ,因为是要求 的最小值,所以 ,如果 可导,则最小值处 , 而对于 ,因此若存在一个足够大的 使得 ,则必定存在一个合适 的使得 ,此时就是我们要找的学习率;因此 可以先设置一个初始的 ,再进行搜索(可以使用折半查找),找到 异号的位置; Armijo法则:只要所使用的学习率使得函数的减小程度小于给定的值即可; 学习率优化的方法: 1.线性搜索:可以先设置一个初...
2022-03-11 18:30:48
432
原创 softMax的损失函数
K分类,第k类的参数为 ,那么,神经网络中softmax层其实是一个线性网络,所以有这个 ;则概率 , 因此概率密度为: 因此最大似然函数为: 这其实是交叉熵的相反数,对最大似然函数取最大值就是对交叉熵取最小值。上式中的 其实在同一个样本中只有一个为1; 和逻辑斯蒂回归有一样的形式。 对于下式y是标签, 是输出预测值。假设y=[0,1,0,0],=[0.3,0.4,0.1,0.2] 单个训练样本损失函数 ...
2022-03-11 18:14:18
1404
原创 逻辑斯蒂回归
对数回归就是逻辑斯蒂回归,log 逻辑斯蒂回归使用sigmod函数: 逻辑斯蒂回归的损失函数为什么选择使用最大似然函数的方式?这就和最大似然估计的定义有关了,用参数估计的方式来使得出现当前情况的概率最大。并且这个不是损失函数,就是参数估计。梯度下降方法使得误差最小,注意逻辑斯蒂回归的代价函数是和线性回归不同的。为什么选择特殊这个代价函数,其实都是从似然回归得来的。 逻辑斯蒂回归最大化似然函数: ,其实就是最小化交叉熵:,Softmax的损失函数也是对应的; 逻辑斯蒂回归代价函数的由来:
2022-03-11 18:12:15
1159
原创 线性回归损失函数推导
线性回归的最大似然方法就是求似然函数 的最大值。 ,其中 为误差,一般来说服从均值为0的高斯分布;而高斯分布的概率密度为: ,因此 ,从而求似然函数 的最大值,就是求 的最小值; ...
2022-03-11 18:10:01
1533
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅