1.2.9&1.2.10 【Deep Learning翻译系列】Logistic Regression Gradient Descent 对数几率回归的梯度下降

博客介绍了对数几率回归的设置,包括公式表达。阐述了在单个训练示例中计算损失的四个传播步骤及反向计算导数的方法,给出了单个训练样本和m个训练样本时对数几率回归梯度下降的计算方向与更新公式,其中涉及学习率等参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们按如下方式设置了对数几率回归,
z=wTx+b,z=wTx+b,
a=y^=σ(z),a=y^=σ(z),
L(a,y)=(1y)log(1y^)ylog(y^).L(a,y)=−(1−y)log⁡(1−y^)−ylog⁡(y^).

在对数几率回归中,我们想要做的是修改参数w和b,以减少L。我们已经描述了在单个训练示例中实际计算损失的四个传播步骤,现在让我们谈谈如何反向计算导数。
对数几率回归的计算图
因为我们想做的是关于这种损失的计算导数,我们反向计算时要做的第一件事就是计算La=ya+1y1a∂L∂a=ya+1−y1−a

然后Lz=Laaz=a(1a)(ya+1y1a)=ay∂L∂z=∂L∂a∂a∂z=a(1−a)(ya+1−y1−a)=a−y

最后计算关于w和b的微分
Lw1=x1Lz,∂L∂w1=x1∂L∂z,
Lw2=x2Lz,∂L∂w2=x2∂L∂z,
Lb=Lz.∂L∂b=∂L∂z.

因此对数几率回归梯度下降计算的方向是:
w1:=w1αLw1,w1:=w1−α∂L∂w1,
w2:=w2αLw2,w2:=w2−α∂L∂w2,
b:=bαLb.b:=b−α∂L∂b.

其中αα是学习率。

上面是只有一个训练样本时的对数几率回归的梯度下降方向,
现在我们想要为m个训练样本的对数几率回归进行梯度下降操作。
整体的成本函数J=1mmi=1L(a(i),y(i))J=1m∑i=1mL(a(i),y(i)),
然后Jwi=1mL(a(i),y(i))wi∂J∂wi=1m∑∂L(a(i),y(i))∂wi。
αα是学习率,然后梯度下降每次迭代的更新公式为:
w1:=w1αJw1,w1:=w1−α∂J∂w1,
w2:=w2αJw2,w2:=w2−α∂J∂w2,
b:=bαJb.b:=b−α∂J∂b.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值