【机器学习-11】 逻辑回归的-交叉熵损失函数

【机器学习-11】 逻辑回归的交叉熵损失函数

梯度下降的求导过程是针对逻辑回归的交叉熵损失函数的推导,具体步骤如下:


1. 损失函数(交叉熵)

J ( w , b ) = − 1 m ∑ i = 1 m [ y ( i ) log ⁡ ( f w , b ( x ( i ) ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − f w , b ( x ( i ) ) ) ] J(\mathbf{w}, b) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(f_{\mathbf{w},b}(\mathbf{x}^{(i)})) + (1-y^{(i)}) \log(1 - f_{\mathbf{w},b}(\mathbf{x}^{(i)})) \right] J(w,b)=m1i=1m[y(i)log(fw,b(x(i)))+(1y(i))log(1fw,b(x(i)))]
其中:
f w , b ( x ) = σ ( w T x + b ) = 1 1 + e − ( w T x + b ) f_{\mathbf{w},b}(\mathbf{x}) = \sigma(\mathbf{w}^T \mathbf{x} + b) = \frac{1}{1+e^{-(\mathbf{w}^T \mathbf{x} + b)}} fw,b(x)=σ(wTx+b)=1+e(wTx+b)1(Sigmoid函数)
• ( m ) 是样本数量, y ( i ) y^{(i)} y(i)是真实标签(0或1)。


2. 对权重 w j w_j wj 和偏置 b b b 的偏导数

(1)权重 w j w_j wj 的偏导

∂ J ( w , b ) ∂ w j = 1 m ∑ i = 1 m ( f w , b ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial J(\mathbf{w}, b)}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right) x_j^{(i)} wjJ(w,b)=m1i=1m(fw,b(x(i))y(i))xj(i)
推导过程

  1. 对Sigmoid函数求导: σ ′ ( z ) = σ ( z ) ( 1 − σ ( z ) ) \sigma'(z) = \sigma(z)(1-\sigma(z)) σ(z)=σ(z)(1σ(z))
  2. 通过链式法则:
    ∂ J ∂ w j = 1 m ∑ i = 1 m [ y ( i ) f ⋅ ∂ f ∂ w j − 1 − y ( i ) 1 − f ⋅ ∂ f ∂ w j ] \frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} \left[ \frac{y^{(i)}}{f} \cdot \frac{\partial f}{\partial w_j} - \frac{1-y^{(i)}}{1-f} \cdot \frac{\partial f}{\partial w_j} \right] wjJ=m1i=1m[fy(i)wjf1f1y(i)wjf]
  3. 合并同类项后代入 ∂ f ∂ w j = f ( 1 − f ) ⋅ x j ( i ) \frac{\partial f}{\partial w_j} = f(1-f) \cdot x_j^{(i)} wjf=f(1f)xj(i),最终化简得到上述结果。
(2)偏置 b b b的偏导

∂ J ( w , b ) ∂ b = 1 m ∑ i = 1 m ( f w , b ( x ( i ) ) − y ( i ) ) \frac{\partial J(\mathbf{w}, b)}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right) bJ(w,b)=m1i=1m(fw,b(x(i))y(i))
推导类似权重,区别在于 ∂ f ∂ b = f ( 1 − f ) \frac{\partial f}{\partial b} = f(1-f) bf=f(1f)


3. 梯度下降更新规则

权重更新
w j : = w j − α ⋅ 1 m ∑ i = 1 m ( f w , b ( x ( i ) ) − y ( i ) ) x j ( i ) w_j := w_j - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right) x_j^{(i)} wj:=wjαm1i=1m(fw,b(x(i))y(i))xj(i)
偏置更新
b : = b − α ⋅ 1 m ∑ i = 1 m ( f w , b ( x ( i ) ) − y ( i ) ) b := b - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right) b:=bαm1i=1m(fw,b(x(i))y(i))
其中 α \alpha α是学习率。


关键点说明

  1. Sigmoid的导数性质:梯度中的 f ( 1 − f ) f(1-f) f(1f) 项在求导时被约去,使得结果形式与线性回归的均方误差类似(但损失函数不同)。
  2. 向量化实现:实际编程中通常用矩阵运算(如 X T ( f − y ) X^T (f - y) XT(fy))替代逐参数更新。
  3. 逻辑回归特性:交叉熵损失对错误分类的惩罚更严厉(梯度更大),收敛速度优于均方误差。

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值