统计学习方法（六）：逻辑斯蒂回归和最大熵模型

本文链接：https://blog.youkuaiyun.com/Smile_mingm/article/details/108388124

本文深入探讨了逻辑斯蒂回归的基本原理，包括其作为判别模型的角色，如何通过sigmoid函数将线性回归转换为二分类任务，以及二项逻辑斯蒂回归的具体推导过程。此外，还介绍了最大熵模型的核心思想，即在给定约束条件下选择熵最大的模型，以实现最自然的概率分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

逻辑斯蒂回归：判别模型，分类
二项逻辑斯蒂回归思路：
线性回归的预测值为一系列实值，为了使输出值变成分类所需的0和1，需要有一个映射将线性回归的输出变在（0，1）之间。这个函数为sigmoid函数。
$sigmoid(x)=11+e−xsigmoid(x)=\frac{1}{1+\mathrm{e}^{-x }}$
将线性函数y = wx+b 先合并b到矩阵中：y = w’x’，代入到sigmoid函数中：
$y(x)=11+e−wxy(x)=\frac{1}{1+\mathrm{e}^{-wx }}$
但是现在只是将输出限定在（0，1）间，还没有完成0、1二分类，应该出现一个阈值作为0或者1的判断界限。这个阈值就是要学习的东西，反映在参数上就是w和b。
$p1=P(Y=1∣x)=exp⁡(w⋅x)1+exp⁡(w⋅x)p_{1} = P(Y=1 \mid x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}$
$p0=P(Y=0∣x)=11+exp⁡(w⋅x)p_{0} = P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x)}$
$\mid x)=p_{1}^{y} p_{0}^{1-y}$
那么目的就是将 $\mid x)$ 最大化，输出使它最大化的w和b
具体推导：
其中的 $φ\varphi$ 表示 $exp⁡(w⋅x)1+exp⁡(w⋅x)\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}$
二项逻辑斯蒂回归可以推广至多项逻辑斯蒂回归，原理使一样的，只是分类不在只是0和1。
最大熵模型：判别模型
核心：解决约束最优化问题
思想：在给定训练集下，即给定约束(经验知识)下，能够得到符合约束的条件概率模型集合{P(y|X)}。其中，约束通过特征函数关联到条件概率，条件概率通过熵进行选择。
最大熵：在约束条件的情况下，会出现很多个满足约束条件的模型，其中该选哪一个呢？选择熵最大的，也就是最无法确定的是最符合自然规律的。
推导：根据约束和最大熵变为约束最优化问题，也就是一个方程组。
$,n∑yP(y∣x)=1\begin{array}{cl}\max _{P \in C} & H(P)=-\sum_{x, y} \tilde{P}(x) P(y \mid x) \log P(y \mid x) \\ \text { s.t. } & E_{P}\left(f_{i}\right)=E_{\tilde{p}}\left(f_{i}\right), \quad i=1,2, \cdots, n \\ & \sum_{y} P(y \mid x)=1\end{array}$
- 这里的约束条件是：训练集样本经验分布的期望 $Ep~(fi)E_{\tilde{p}}\left(f_{i}\right)$ =模型的期望 $EP(fi)E_{P}\left(f_{i}\right)$ 。以及所有情况的条件概率和为1。
- 这里的最大熵为： $\mid x)$ 的条件熵，也就是： $max⁡pϵCH(P)=−∑x,yP~(x)P(y∣x)log⁡P(y∣x)\max _{p_{\epsilon} \mathbf{C}} \quad H(P)=-\sum_{x, y} \tilde{P}(x) P(y \mid x) \log P(y \mid x)$
- 这里转化为高数问题，运用拉格朗日乘子法计算约束问题