
线性回归
海滩上的那乌克丽丽
I can because i believe i can.
展开
-
轮次与批次
轮次(epoch):将我们已有的数据(X, y)学习多少轮。批次(batch):把一轮次的学习分成多少个批次。机器学习或者深度学习中的双层for循环。原创 2022-02-14 23:05:24 · 1160 阅读 · 0 评论 -
梯度下降法的问题与挑战
1.选择一个合理的学习速率很难,需要在工作中不断调整,如果学习速率过低,导致收敛速度变慢,如果学习速率过大,那么模型难以收敛。2.学习速率调整,我们一般在学习过程中不断调整学习速率。一开始我们先开始一个固定设置,随着迭代次数增加是学习率逐步衰减。3.如果数据集不在一个数量等级内,即每个特征有着不同的取值空间,或者矩阵数据特征稀疏(稀疏的矩阵尽可能用大的速率)那么就不能用同样的学习速率。(归一化)4.梯度下降法本身容易进入局部最优解中。鞍点问题。...原创 2022-02-14 21:02:49 · 942 阅读 · 0 评论 -
三种梯度下降(全量梯度下降,随机梯度下降,小批量梯度下降)
三种梯度下降方式区别仅在于求梯度所用到的X数据集的样本数量不同!全量梯度下降(BGD)全部的样本都用上优点:每次都会朝着正确的方向进行,最终保证收敛到极值点缺点:每次学习实践过长,并且如果训练集很大以至于需要消耗大量的内存,不能进行在线参数模型更新。随机梯度下降(SGD)每次从训练集中选择一个样本进行学习优点:每次只选择一个样本学习,那么学习的速度非常快,并且可以在线更新模型。缺点:每次更新可能不会按照正确的方向进行,可能有扰动。扰动也原创 2022-02-14 20:38:31 · 1230 阅读 · 0 评论 -
损失函数的导函数(求导)
MSE对theta求偏导求得的是一组g原创 2022-02-13 22:03:37 · 1515 阅读 · 0 评论 -
梯度下降法流程总结
1.随机random一组theta(w1...wn)2.求梯度(梯度代表切线某点的斜率)loss对theta求一阶导(这里theta是一个n+1行1列的向量,如果一个函数对向量求导,我们说这是求梯度)loss损失函数分别对每个theta求偏导得到的一个向量叫做梯度3.如果求得的梯度g<0,那么theta就应该往大了去调,如果梯度大于零,那么theta就往小了去调。4.判断是否收敛,如果收敛就跳出迭代,没有达到收敛就回到第二步继续。问1.如何随机np.random.ran原创 2022-02-13 21:16:50 · 537 阅读 · 0 评论