- 博客(6)
- 收藏
- 关注
原创 mlp学习笔记day3
显式正则化通过直接修改损失函数,例如添加参数范数项,而隐式正则化则并不改变损失函数的形式,但优化算法本身的结构——如随机梯度下降中的离散更新、有限学习率、初始化和噪声等因素——在不知不觉中改变了模型的学习偏好。一个神经元众多的复杂模型就像一个记忆力极好但有点神经质的学生,他能记住所有细节(低偏差),但也容易被无关紧要的琐事干扰,导致发挥不稳定(高方差) 一个简单的线性模型就像一个固执的“一根筋”学生,他只相信简单的直线规则(高偏差),但好处是不管遇到什么细微变化,他的答案总是一样的,非常稳定(低方差)
2025-07-23 00:35:52
1832
原创 mlp学习第二天—优化器
解决问题:若横向平缓,纵向梯度很大,很难选择一个合适的学习率同时满足横向和纵向的需求(因为横向平缓可以移动较远,但是纵向过于陡峭需要缓慢移动)即可得到下一点的梯度 ϕt+1=ϕt−α⋅β⋅mt 进行求梯度即是对下一点的梯度进行预测,有更大的“视野”NAG 的本质是在 “预测点” 处计算梯度,有助于提前感知未来的梯度变化,从而提供更强的“前瞻性”调整。随着时间增加,是对所有先前梯度加权和,并且越早的梯度越小,助于加快收敛并抑制震荡。mt 是动量, β 是控制梯度随时间的平滑程度, α 是学习速率,
2025-07-18 22:58:35
353
原创 mlp学习笔记——mini batch sgd
它不会每次都追求全局 loss 的最速下降,而是允许在不同 batch 上逐步更新,通过不断扰动的更新方向逐步逼近全局最优,并能有效跳出局部洼地,这是它优于传统 GD 的关键所在。我们通常将一个大的训练样本集合(Sample)划分为多个较小的子集(mini-batch),例如每个 batch 包含 32 个样本(batch size=32,实际数值应根据内存、模型结构合理选择)。这是因为每个 batch 只是对全数据分布的一个子样本,它定义了一个 局部的 loss 曲面,与全局 loss 曲面略有不同。
2025-07-17 20:59:16
455
原创 已解决【ModuleNotFoundError: No module named ‘pip._vendor.packaging.__about__‘】
在刚创建完虚拟环境下载包时遇到下面所示问题,无法使用pip下载。笔者使用一个方法解决,需要pycharm。1.选择python软件包。2.找到pip并点击删除。3.重新下载安装pip包。即可在终端使用pip。
2025-01-30 16:15:44
457
原创 浅介绍python中minimize非线性规划用法
可选:Nelder-Mead,Powell,CG,BFGS,Newton-CG,L-BFGS-B,TNC,COBYLA,SLSQP,trust-constr,dogleg,trust-ncg,trust-exact,trust-krylov 等选项,一般不要求的情况下可以之间不管。信任域约束优化方法,适用于带有约束的优化问题,支持线性和非线性约束,支持多。bound = ((0,1),(0,1))#两个自变量的范围为0-1。适用于带有约束的优化问题,尤其适用于没有梯度信息的问题。
2023-08-09 01:00:34
4474
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅