【机器学习-11】逻辑回归的-交叉熵损失函数

SSWDUT

于 2025-03-29 19:34:25 发布

阅读量758

点赞数 12

分类专栏：机器学习探索笔记 | 从理论到实践文章标签：机器学习逻辑回归人工智能

本文链接：https://blog.youkuaiyun.com/wangshangshang09/article/details/146705680

版权

机器学习探索笔记 | 从理论到实践专栏收录该内容

34 篇文章

订阅专栏

【机器学习-11】逻辑回归的交叉熵损失函数

梯度下降的求导过程是针对逻辑回归的交叉熵损失函数的推导，具体步骤如下：

1. 损失函数（交叉熵）

$J(\mathbf{w}, b) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(f_{\mathbf{w},b}(\mathbf{x}^{(i)})) + (1-y^{(i)}) \log(1 - f_{\mathbf{w},b}(\mathbf{x}^{(i)})) \right]$
其中：
• $f_{\mathbf{w},b}(\mathbf{x}) = \sigma(\mathbf{w}^T \mathbf{x} + b) = \frac{1}{1+e^{-(\mathbf{w}^T \mathbf{x} + b)}}$ （Sigmoid函数）
• ( m ) 是样本数量， $y^{(i)}$ 是真实标签（0或1）。

2. 对权重 $w_j$ 和偏置 $b$ 的偏导数

（1）权重 $w_j$ 的偏导

$\frac{\partial J(\mathbf{w}, b)}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right) x_j^{(i)}$
推导过程：

对Sigmoid函数求导： $\sigma'(z) = \sigma(z)(1-\sigma(z))$ 。
通过链式法则：
$\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} \left[ \frac{y^{(i)}}{f} \cdot \frac{\partial f}{\partial w_j} - \frac{1-y^{(i)}}{1-f} \cdot \frac{\partial f}{\partial w_j} \right]$
合并同类项后代入 $\frac{\partial f}{\partial w_j} = f(1-f) \cdot x_j^{(i)}$ ，最终化简得到上述结果。

（2）偏置 $b$ 的偏导

$\frac{\partial J(\mathbf{w}, b)}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right)$
推导类似权重，区别在于 $\frac{\partial f}{\partial b} = f(1-f)$ 。

3. 梯度下降更新规则

• 权重更新：
$w_j := w_j - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right) x_j^{(i)}$
• 偏置更新：
$\alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right)$
其中 $\alpha$ 是学习率。