机器学习笔记（三）——逻辑回归/对率回归-优快云博客

本文链接：https://blog.youkuaiyun.com/python_bigniu/article/details/120257742

本文深入探讨了逻辑回归为何使用sigmoid函数而非阶跃函数，解释了sigmoid函数在模型中的作用，以及逻辑回归作为线性模型的原理。通过极大似然法介绍了参数的估计过程，并阐述了梯度下降算法在模型拟合中的应用。此外，还对比了多分类任务中的一对一（OvO）、一对余（OvR）和多对多（MvM）策略的优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

逻辑回归算法为什么用的是sigmoid函数而不用阶跃函数？

在分类问题中，预测的变量 $y$ 是离散的值，考虑二分类任务输出标记 $\in \{ 0,1\}$ ,而线性回归模型产生的预测值 $z = {w^T}x + b$ 是实数，我们需要将实数值 $z$ 转换为0/1值。最理想的是单位阶跃函数(unit-step function)
$=\begin{cases} {0,} & {z < 0;} \\ {0.5,} & {z = 0;} \\ {1,} & {z > 0;} \\ \end{cases}$
即若预测值 $z$ 大于0就判断为正例，小于0则判断为反例，预测值为临界值0则等于0.5。
显然这个单位阶跃函数不连续，阶跃函数虽然能够直观刻画分类的错误率，但是由于其非凸、非光滑的特点，使得算法很难直接对该函数进行优化。而sigmoid函数本身的特征（光滑无限阶可导），以及完美的映射到概率空间，就用于逻辑回归了。对率函数正是这样一个可替代单位阶跃函数的替代函数： $\frac{1}{ {1 + {e^{ - z}}}}$
在这里插入图片描述
Sigmoid函数即形似S的函数，对率函数是Sigmoid函数最重要的代表，它将 $z$ 值转化为接近0或1的值，并且其输出值在 $z = 0$ 附近变化很陡。
把 $z$ 带入上述方程可得到： $\frac{1}{ {1 + {e^{ - ({w^T}x + b)}}}}$
可做变换：
$ln⁡y1−y=wTx+b\ln \frac{y}{ {1 - y}} = {w^T}x + b$
若将 $y$ 视为样本 $x$ 作为正例的可能性，则 $1 - y$ 是其反例的可能性，两者的比值 $y1−y\frac{y}{ {1 - y}}$ ，反映了 $x$ 作为正例的相对概率，对概率取对数则得到“对数概率” $ln⁡y1−y\ln \frac{y}{ {1 - y}}$ 。

逻辑回归为什么是线性模型？

考虑单调可微函数 $\cdot )$ ，令 $y = {g^{ - 1}}({w^T}x + b)$ 得到这样的模型称为“广义线性模型”，其中的函数 $\cdot )$ 称为“联系函数”。
而逻辑回归公式：
$\frac{1}{ {1 + {e^{ - z}}}}= \frac{1}{ {1 + {e^{ - ({w^T}x + b)}}}}$