机器学习算法系列（二）：逻辑回归

最新推荐文章于 2023-03-28 12:21:06 发布

原创最新推荐文章于 2023-03-28 12:21:06 发布 · 323 阅读

2 ·

CC 4.0 BY-SA版权

机器学习系列专栏收录该内容

11 篇文章

订阅专栏

本文深入探讨了逻辑回归的损失函数推导过程，从概率分布角度解释了逻辑回归为何选择特定的损失函数，并对比了其与最小二乘法的区别。同时，文章还介绍了逻辑回归损失函数的数学性质，如凸性，以及如何通过梯度下降法求解最优参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从概率分布的角度推导逻辑回归的损失函数

逻辑回归是一种分类算法。

$y=wTx+by=\mathbf{w^{T} x}+b$
采用非线性映射： $z=11+e−yz=\frac{1}{1+e^{-y}}$
逻辑回归一定选取sigmoid函数，其实就是把y的值从 $(−∞,+∞)(-\infty,+\infty)$ 压缩到 $(0, 1)$

其实，逻辑回归本质上对应于(0-1)分布,说明如下：

令 $h(x)=g(θTx)=11+e−θTxh(\mathbf{x})=g(\mathbf{\theta^Tx})=\frac{1}{1+e^{-\mathbf{\theta^Tx}}}$

则： $h(x)h(\mathbf{x})$ 代表了结果为1的概率。即y取1的概率为h(x)，y取0的概率为1-h(x)
$P(y=1|\mathbf{x,\theta})=h(\mathbf{x})\\ P(y=0|\mathbf{x,\theta})=1-h(\mathbf{x})$
于是：
$P(y|\mathbf{x,\theta})=h(\mathbf{x})^y(1-h(\mathbf{x}))^{1-y}$
似然函数：
$L(\mathbf{\theta})=\prod_{i=1}^{n}h(\mathbf{x}^i)^{y^i}(1-h(\mathbf{x}^i))^{1-y^i}$
对数似然函数：
$lnL(\mathbf{\theta})=\sum_{i=1}^{n}[y^ilnh(\mathbf{x}^i)+(1-y^i)ln(1-h(\mathbf{x}^i))]$
其实，该函数是一个凹函数，也就是说 $−lnL(θ)-lnL(\mathbf{\theta})$ 是一个凸函数，证明如下：

根据“凸函数的非负线性组合依旧是凸函数”的原则，我们只需要证明 $−ln(h(x))和−ln(1−h(x))-ln(h(\mathbf{x}))和-ln(1-h(\mathbf{x}))$ 是凸函数即可。
$\begin{aligned}-ln(h(\mathbf{x}))&=ln(1+e^{-\mathbf{\theta^Tx}})\\ \nabla_{\theta}ln(1+e^{-\mathbf{\theta^Tx}})&=\frac{e^{-\mathbf{\theta^Tx}}}{1+e^{-\mathbf{\theta^Tx}}}(-\mathbf{x})=(h(\mathbf{x})-1)\mathbf{x}\\ \nabla_{\theta}^2ln(1+e^{-\mathbf{\theta^Tx}})&=h(\mathbf{x})(1-h(\mathbf{x}))\mathbf{x}\mathbf{x^T} \end{aligned}$
注意：在求Hessian矩阵时，需要对 $x\mathbf{x}$ 做转置。

对于任意的向量 $z\mathbf{z}$ ，
$\mathbf{z^T}h(\mathbf{x})(1-h(\mathbf{x}))\mathbf{x}\mathbf{x^T}\mathbf{z}=\underbrace{h(\mathbf{x})(1-h(\mathbf{x}))}_{常数}\underbrace{(\mathbf{x^T}\mathbf{z})^2}_{常数} \ge0$
所以hessian矩阵是半正定矩阵，所以该函数是凸函数。

同理，可以证明 $−ln(1−h(x))-ln(1-h(\mathbf{x}))$ 是凸函数。

这样，我们接下来就可以用梯度下降法来求解最优的 $θ\theta$ 值了。

所以我们也可以得出这样的结论：逻辑回归的损失函数就是对数似然函数的负值。

直观理解逻辑回归的损失函数

$\operatorname{cost}\left(h_{\theta}(x), y\right)=\left\{\begin{aligned}-\log \left(h_{\theta}(x)\right) & \text { if } y=1 \\-\log \left(1-h_{\theta}(x)\right) & \text { if } y=0 \end{aligned}\right.$

分析上面的损失函数：

当真实值 $y = 1$ 时，预测值 $h (x)$ 越接近1，损失越接近0；预测值越接近0，损失值接近正无穷。
当真实值 $y = 0$ 时，预测值 $h (x)$ 越接近0，损失越接近0；预测值越接近1，损失值接近正无穷。

因此，符合要求。

从图中也可以看出，两个函数均是凸函数，因此凸函数的线性组合依旧是凸函数，可以得知损失函数是凸函数，可以直接采用梯度下降法等优化算法求解。整理后，损失函数如下：
$J=-\sum_{i=1}^{n}[y^ilnh(\mathbf{x}^i)+(1-y^i)ln(1-h(\mathbf{x}^i))]$

向量形式为：
$J=-\frac{1}{m}[lnh(\mathbf{x})^T\mathbf{y}+ln(1-h(\mathbf{x}))^T\mathbf{(1-y)}]$

对损失函数求梯度可以得到：
$\frac{\partial J(\theta)}{\partial\theta_{j}} = \frac{1}{m}\sum_{i=1}^{m} ( h_\theta (x^{(i)})-y^{(i)})x^{(i)}_{j}$
向量形式为：（向量形式不好直接推导，可以先推导上面的结果，然后转为向量形式）向量化的结果在变成时特别方便。

$\frac{\partial J(\theta)}{\partial\theta} = \frac{1}{m} X^T(g(X\theta)-y)$
为什么逻辑回归的损失函数不采用最小二乘呢？

原因1：逻辑回归本质上是从(0-1)分布而来，而线性回归本质上是从高斯分布而来，二者就不应该混用。
原因2：假设使用最下二乘，那么损失函数为 $∑i=1n[yi−g(θTxi)]2\sum_{i=1}^{n}[y^i-g(\mathbf{\theta ^Tx}^i)]^2$ ，但是 $y^i$ 的取值只有0和1，而g函数的取值为 $[0, 1]$ ，两者都不对应，误差肯定很大，这个函数也不是凸函数，有许多局部极小值。

从二分类过渡到多分类

有两种方法，即one vs one 和 one vs rest。

one vs one。考虑N个类别，c1,c2,c3,c4…cn。这种方法将其中的任意两个类别进行配对，从而产生n(n-1)/2个分类任务。比如，我们为区分c1和c2构建一个分类器，该分类器把c1视为正类，把c2视为负类。在测试阶段，新样本将同时提交给所有分类器，于是，我们就可以得到n(n-1)/2个分类结果，最终结果可以通过投票产生。
one vs rest。每次将一个类的样例作为正例，所有其它类的样例作为负例。训练N个分类结果。在测试时，计算每个分类器预测为正例的概率，取最大的那一个作为最终结果。这种方法要求算法必须能够输出分类的概率，比如逻辑回归。当算法仅仅给出一个决策性的结果，不能给出分类概率时，这种方法便不适用，比如（svm)
*

参考自《机器学习（周志华）》