随机梯度上升(下降)算法推导过程:
使用的一些变量,类别标签向量
y
,数据集样本矩阵
那么我们的目标就是损失(代价)函数cost function(lost function)最小化,也就是
f=eTe
最小,进一步地,也就是似然函数最大
−12eTe
最大,
f(W) = argmaxω ∈ W = −12eTe = −12(y−XW)T(y−XW) = −12(yTy−yTXW−WTXTy+WTXTXW)
则梯度为,
∂f(ω)∂ω = −12(2XTXW−2XTy) = XT(y−XW) = XTe
由此得,
W = W+αXTe = W+α∇ωf(ω)
本文详细介绍了随机梯度上升算法的推导过程,包括关键的数学公式和步骤,如损失函数的定义及其梯度的计算等。适用于理解机器学习中优化算法的基本原理。
823

被折叠的 条评论
为什么被折叠?



