【李航统计学习笔记】第六章：Logistic regression

最新推荐文章于 2025-07-30 11:20:45 发布

原创最新推荐文章于 2025-07-30 11:20:45 发布 · 184 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #极大似然估计 #logistics regression

李航统计学习笔记专栏收录该内容

11 篇文章

订阅专栏

6.1 Logistic Regression

Logistic分布

回顾感知机：

$f(x)=\operatorname{sign}(w \cdot x+b)$

思考：

只输出-1和+1是不是太生硬了？这样的判别方式真的有效吗？
超平面左侧0.001距离的点和超平面右侧0.001距离的点真的有天壤之别吗？

感知机的缺陷：

感知机通过梯度下降更新参数，但在 sign函数中， $x = 0$ 是间断点，不可微。
感知机由于sign不是连续可微的，因此在梯度下降时脱去了壳子sign函数。

logistic regression定义：

$\begin{aligned} &P(Y=1 \mid x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)} \\ &P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x)} \end{aligned}$

参数估计：

Logistic regression模型学习时，对于给定的训练数据集 $,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\right.\left.\left(x_{N}, y_{N}\right)\right\}$ ，其中， $xi∈Rn,yi∈{0,1}x_{i} \in \mathbf{R}^{n}, \quad y_{i} \in\{0,1\}$ ，可以应用极大似然估计法估计模型参数，从而得到logistic regression模型。

设：
$\mid x)=\pi(x), \quad P(Y=0 \mid x)=1-\pi(x)$
似然函数为:
$\prod_{i=1}^{N}\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}}$
对数似然函数为：
$\begin{aligned} L(w) &=\sum_{i=1}^{N}\left[y_{i} \log \pi\left(x_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(x_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i} \log \frac{\pi\left(x_{i}\right)}{1-\pi\left(x_{i}\right)}+\log \left(1-\pi\left(x_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i}\left(w \cdot x_{i}\right)-\log \left(1+\exp \left(w \cdot x_{i}\right)\right]\right. \end{aligned}$
对 $L (w)$ 求极大值，得到 $w$ 的估计值。

似然函数对 $w$ 的求导：
$\begin{gathered} L(w)=\sum_{i=1}^{N}\left[y_{i}\left(w \cdot x_{i}\right)-\log \left(1+\exp \left(w \cdot x_{i}\right)\right)\right] \\ \frac{\partial L(w)}{\partial w}=y_{i} \cdot x_{i}-\frac{1}{1+\exp \left(w \cdot x_{i}\right)} \exp \left(w \cdot x_{i}\right) \cdot x_{i}=y_{i} \cdot x_{i}-\frac{x_{i} \cdot \exp \left(w \cdot x_{i}\right)}{1+\exp \left(w \cdot x_{i}\right)} \end{gathered}$

总结：

逻辑斯谛以输出概率的形式解决了极小距离带来的 + 1和-1的天壤之别。同时概率也可作为模型输出的置信程度。
逻辑斯谛使得了最终的模型函数连续可微。训练目标与预测目标达成了一致。
逻辑斯谛采用了极大似然估计来估计参数。

最大熵原理

什么是最大熵？

在我们猜测概率时，不确定的部分我们认为是等可能的，就好像骰子一样，我们知道有6个面，因此认为每个面的概率是 $1/6$ ，也就是等可能。
换句话说，就是趋向于均匀分布，最大熵使用的就是一个这么朴素的道理：凡是我们知道的，就把它考虑进去，凡是不知道的，通通均匀分布。

最大熵模型

终极目标：
$\mid X)$
熵:
$H(P)=-\sum_{x} p(x) \log P(x)$
将终极目标代入熵：
$H(P)=-\sum_{x} p(y \mid x) \log P(y \mid x)$
做些改变，调整熵:
$H(P)=-\sum_{x} \widetilde{P}(x) p(y \mid x) \log P(y \mid x)$

约束条件

特征函数
$\begin{cases}1, & x \text { 与 } y \text { 满足某一事实 } \\ 0, & \text { 否则 }\end{cases}$
特征函数 $f (x, y)$ 关于经验分布 $P~(x,y)\widetilde{P}(x, y)$ 的期望值：
$E_{\widetilde{p}}(f)=\sum_{x, y} \widetilde{P}(x, y) f(x, y)=\sum_{x, y} \widetilde{P}(x) \widetilde{P}(y \mid x) f(x, y)$
特征函数 $f (x, y)$ 关于经验分布 $P (x, y)$ 的期望值：
$E_{p}(f)=\sum_{x, y} P(x, y) f(x, y)=\sum_{x, y} \widetilde{P}(x) P(y \mid x) f(x, y)$
约束:
$E_{\widetilde{p}}(f)=E_{p}(f)$

$\begin{array}{ll} \max _{P \in C} & H(P)=-\sum_{x, y} \widetilde{P}(x) \widetilde{P}(y \mid x) f(x, y) \\ \text { s.t. } & E_{\widetilde{p}}(f)-E_{p}(f)=0 \\ & \sum_{y} P(y \mid x)=1 \\ \min _{P \in C} & H(P)=\sum_{x, y} \widetilde{P}(x) \widetilde{P}(y \mid x) f(x, y) \\ \text { s.t. } & E_{\widetilde{p}}(f)-E_{p}(f)=0 \\ & \sum_{y} P(y \mid x)=1 \end{array}$

拉格朗日乘子法

$\begin{aligned} L(P, w) \equiv &-H(P)+w_{0}\left(1-\sum_{y} P(y \mid x)\right)+\sum_{i=1}^{n} w_{i}\left(E_{\tilde{P}}\left(f_{i}\right)-E_{P}\left(f_{i}\right)\right) \\ =& \sum_{x, y} \tilde{P}(x) P(y \mid x) \log P(y \mid x)+w_{0}\left(1-\sum_{y} P(y \mid x)\right) \\ &+\sum_{i=1}^{n} w_{i}\left(\sum_{x, y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P(y \mid x) f_{i}(x, y)\right) \end{aligned}$

$\min _{P \in C} \max _{w} L(P, w) \rightarrow \max _{w} \min _{P \in C} L(P, w)$

$\begin{aligned} P_{w}(y \mid x) &=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \\ Z_{w}(x) &=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \end{aligned}$

总结

最大熵强调不提任何假设，以熵最大为目标。
将终极目标代入熵的公式后，将其最大化。
在训练集中寻找现有的约束，计算期望，将其作为约束。使用拉格朗日乘子法得到 $\mid x)$ ，之后使用优化算法得到 $\mid x)$ 中的参数 $w$ 。

6.2 改进的尺度迭代法（IIS）

已知要解决的目标:
$\begin{aligned} P_{w}(y \mid x) &=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \\ Z_{w}(x) &=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \end{aligned}$
所有的式子连乘取对数转换为似然函数为:
$L(w)=\sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)\right]-\sum_{x}\left[\tilde{P}(x) \ln Z_{w}(x)\right]$
IIS核心思想：每次增加一个量 $δ\delta$ ，使得 $L(w+δ)>L(w)L(w+\delta)>L(w)$ ，以此不断提高 $L$ 的值，直到达到极大值
$L(w+\delta)-L(w)=\sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} w_{i} \delta_{i} f_{i}(x, y)\right]-\sum_{x}\left[\tilde{P}(x) \ln \frac{Z_{w+\delta}(x)}{Z_{w}(x)}\right]$
其中
$\begin{aligned} \frac{Z_{w+\delta}(x)}{Z_{w}(x)} &\left.=\frac{1}{Z_{w}(x)} \sum_{y} \exp \left(\sum_{i=1}^{n}\left(w_{i}+\delta_{i}\right) f_{i}(x, y)\right]\right) \\ &=\sum_{y} \frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \exp \left(\sum_{i=1}^{n} \delta_{i} f_{i}(x, y)\right) \\ &=\sum_{y} P(y \mid x) \exp \left(\sum_{i=1}^{n} \delta_{i} f_{i}(x, y)\right) \end{aligned}$
所以
$\begin{aligned} \mathrm{L}(w+\delta)-\mathrm{L}(w) &=\sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} w_{i} \delta_{i} f_{i}(x, y)\right]-\sum_{x}\left[\tilde{P}(x) \ln \frac{Z_{w+\delta}(x)}{Z_{w}(x)}\right] \\ & \geq \sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} w_{i} \delta_{i} f_{i}(x, y)\right]+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y \mid x) \exp \left(\sum_{i=1}^{n} \delta_{i} f_{i}(x, y)\right) \end{aligned}$
又
$\exp \left(\sum_{i=1}^{n} \delta_{i} f_{i}(x, y)\right) =\exp \left(\sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{*}(x, y)} f^{*}(x, y) \delta_{i}\right) \leq \sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{*}(x, y)} \exp \left(\delta_{i} f^{*}(x,y)\right)$

所以
$\begin{aligned} L(w+\delta)-L(w) &=\sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} w_{i} \delta_{i} f_{i}(x, y)\right]-\sum_{x}\left[\tilde{P}(x) \ln \frac{Z_{w+\delta}(x)}{Z_{w}(x)}\right] \\ & \geq \sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} w_{i} \delta_{i} f_{i}(x, y)\right]+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y \mid x) \exp \left(\sum_{i=1}^{n} \delta_{i} f_{i}(x, y)\right) \\ & \geq \sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)\right]+1-\sum_{x} \tilde{P}(x) \sum_{v} P_{w}(y \mid x) \sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{*}(x, y)} \exp \left(\delta_{i} f^{*}(x, y)\right) \end{aligned}$
我们令
$\begin{aligned} &A(\delta \mid w)=\sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} w_{i} \delta_{i} f_{i}(x, y)\right]+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y \mid x) \exp \left(\sum_{i=1}^{n} \delta_{i} f_{i}(x, y)\right) \\ &B(\delta \mid w)=\sum_{x, y}\left[\tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)\right]+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y \mid x) \sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{*}(x, y)} \exp \left(\delta_{i} f^{*}(x, y)\right) \end{aligned}$
当 $δ=0\delta=0$ , 有
$\begin{aligned} &A(\delta \mid w)=0 \\ &B(\delta \mid w)=0 \end{aligned}$
所以
$\begin{aligned} g\left(\delta_{i}\right) &=\sum_{x, y} \tilde{P}(x) P_{w}(y \mid x) f_{i} \exp \left(\delta_{i} f^{*}\right)-\mathrm{E} \tilde{P}\left(f_{i}\right) \\ g\left(\delta_{i}\right) &=0 \\ \delta_{i}^{(k+1)} &=\delta_{i}^{(k)}-\frac{g\left(\delta_{i}^{(k)}\right)}{g^{\prime}\left(\delta_{i}^{(k)}\right)} \end{aligned}$
总结：