第四章：Linear Models for Classification

最新推荐文章于 2025-07-05 04:34:01 发布

原创最新推荐文章于 2025-07-05 04:34:01 发布 · 689 阅读

0 ·

CC 4.0 BY-SA版权

模式识别与机器学习1-14章内容小结-bishop 专栏收录该内容

18 篇文章

订阅专栏

本文探讨了概率判别模型的基础概念，包括逻辑回归、多类别逻辑回归及Probit回归等，并介绍了最大似然法与贝叶斯方法两种参数估计手段。此外，还涉及了Laplace近似及其在模型比较中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

四：Probabilistic Discriminative Models

1：Logistic Regression for Two Classes：

令 $p(C_{1}|\vec \phi(\vec x))=y(\vec \phi(\vec x))=\sigma{(\vec w^T\vec \phi(\vec x))}$ ，则 $p(C_{2}|\vec \phi(\vec x))=1-p(C_{1}|\vec \phi(\vec x))$ ，表示的意思是假设我们有一个输入矢量 $\vec x$ ，我们先把它转换成feature vector $\vec \phi(\vec x)$ ，然后再带入上述公式，得出该输入矢量分别被划入类 $C_{1}$ 和类 $C_{2}$ 的概率，最后根据decision rule决定该输入矢量到底该被分到哪一个类中，但我们首先应该要获得关于参数 $\vec w$ 的相关信息，即inference stage。在inference stage，我们有两种方法能够获得关于参数 $\vec w$ 的信息，即最大似然法（包括了正则化项的添加），另外一个是贝叶斯方法。

1）：Maximum Likelihood Method：

(1)：求误差函数，也就是似然函数的负对数：

对于一个数据集 $({\vec \phi(\vec x_{n}),t_{n}})，t_{n} \in \{0,1\}$ ，其似然函数写成 $p(\vec t|\vec w)=\prod_{n=1}^{N}{y_{n}^{t_{n}}\{1-y_{n}\}}$ 。我们最小化该似然函数的负对数，也就是我们说的cross-entropy error function： $E(\vec w)=-lnp(\vec t|\vec w)=-\sum_{n=1}^{N}\{t_n\ln y_{n}+(1-t_{n})\ln(1-y_{n})\}$

将该误差函数对参数 $\vec w$ 进行二阶求导，得到其Hessian矩阵，我们能证明该矩阵是正定(positive definite)矩阵，因此该误差函数关于参数 $\vec w$ 是convex 函数，因此参数 $\vec w$ 有一个唯一的值使得该误差函数最小。接下来就是最小化误差函数，从而获取对应的 $\vec w$ 参数值

（2）：误差函数最小化：

上面我们说到该误差函数有一个唯一的最小值，因此接下来我们可以采用Newton-Raphson iterative optimization scheme $\vec w^{(new)}=\vec w^{(old)}-H^{-1}\bigtriangledown E(\vec w)$ 去极小化误差函数 $E(\vec w)$ ，H就是我们上面说的Hessian矩阵。进行一系列推到，我们能够得到下式:

w ⃗ (n e w) = (Φ T R Φ) - 1 Φ T R {Φ w ⃗ (o l d) - R - 1 (y ⃗ - t ⃗)} R 为 N * N 对 角 矩 阵 ， R n n = y n (1 - y n)

$\vec w^{(new)}=(\Phi^{T}R\Phi)^{-1}\Phi^{T}R\{\Phi\vec w^{(old)}-R^{-1}(\vec y-\vec t)\}\\R为N*N 对角矩阵，R_{nn}=y_{n}(1-y_{n})$

我们先对参数 $\vec w$ 赋初值，把其带入上述公式中的 $\vec w^{(old)}$ 中，得到 $\vec w^{(new)}$ ，在下一轮迭代中，把这个 $\vec w^{(new)}$ 当做 $\vec w^{(old)}$ ，又得到对应的 $\vec w^{(new)}$ ，就这样一直迭代，直到 $\vec w$ 的值几乎不改变为止，这样我们就得到了使得误差函数最小的参数 $\vec w$ 的值。

但是正如本书中反复提到的，极大似然法会带来过度拟合(over-fitting)问题，也就是对训练集中的目标值能够预测的非常好但是不能够泛化(low bias and high variance)。在分类问题中，过度拟合表现的就是如果训练集是linearly separable，极大似然解会找到一组参数值 $\vec w$ 使得 $\vec w^T\vec \phi(\vec x)=0$ 从而将这两个类分开，但是参数值 $\vec w$ 的幅度会非常大，使得训练集中数据点的 $\vec w^{T}\vec \phi(\vec x_{n})$ 要么趋于正无穷要么趋于负无穷使得 $y_{n}=t_{n}$ ，从而使得误差函数最小化，这样虽然使得得训练集中数据点对应的后验概率 $p(C_{k}|\vec x_{n})=1$ ，但该模型不能泛化。

解决过度拟合问题有三种方法，第一种是主动降低模型复杂度，第二种就是在极大似然函数负对数后面添加正则化项（以达到间接降低模型复杂度的目的），第三种就是使用贝叶斯方法（假设参数 $\vec w$ 是变量）

2）：Bayesian Method：

现在我们讨论贝叶斯方法，但是exact bayesian inference for logistic regression is intractable，具体表现在参数 $\vec w$ 的后验概率的归一化因子没有解析解，还有就是预测分布也没有解析解。因此我们在这里采取Laplace approximation（用高斯分布来近似概率密度分布），用关于参数 $\vec w$ 的高斯分布来代替参数 $\vec w$ 真实的后验分布。

（1）：参数 $\vec w$ 的后验分布：

既然我们对参数 $\vec w$ 的后验分布采取高斯近似，因此自然的我们选用高斯分布作为参数 $\vec w$ 的先验分布，即 $p(\vec w)=N(\vec w|\vec m_{0},S_{0})$ 。参数 $\vec w$ 的后验分布 $p(\vec w|\vec t) \propto p(\vec w)p(\vec t|\vec w)$ 。正如我们上面所说的，求取该后验分布归一化因子是解析不可解的，因此用高斯分布来近似，近似后的结果为

q (w ⃗ | t ⃗) = N (w ⃗ | w ⃗ M A P, S N) S - 1 N = S - 1 0 + \sum n = 1 N y n (1 - y n) ϕ ⃗ (x ⃗ n) ϕ ⃗ (x ⃗ n) T

$q(\vec w|\vec t)=N(\vec w|\vec w_{MAP},S_{N}) \\ S_{N}^{-1}=S_{0}^{-1}+\sum_{n=1}^{N}y_{n}(1-y_{n})\vec \phi(\vec x_{n})\vec \phi(\vec x_{n})^{T}$

（2）：求取预测分布：

极大似然法是对 $\vec w$ 做点估计，因此对于极大似然法来说重要的是求取 $\vec w$ 的值。但是对于贝叶斯方法，参数 $\vec w$ 的值并不重要，重要的是要对参数 $\vec w$ 进行边际化求得预测分布，式子如下：

p (C 1 | ϕ ⃗ (x ⃗), t ⃗) = \int p (C 1 | ϕ ⃗ (x ⃗), w ⃗) p (w ⃗ | t ⃗) \approx \int σ (w ⃗ T ϕ ⃗ (x ⃗) q (w ⃗ | t ⃗) d w ⃗ = σ (k (σ 2 a) u a) u a = w ⃗ T M A P ϕ ⃗ (x ⃗), σ 2 a = ϕ ⃗ (x ⃗) T S N ϕ ⃗ (x ⃗) k (σ 2 a) = (1 + π σ 2 a / 8) - 1 / 2

$p(C_{1}|\vec \phi(\vec x),\vec t)=\int p(C_{1}|\vec \phi(\vec x),\vec w)p(\vec w|\vec t) \approx \int \sigma(\vec w^{T}\vec \phi(\vec x)q(\vec w|\vec t)d\vec w\\=\sigma(k(\sigma_{a}^{2})u_{a})\ \ \ \ u_{a}=\vec w_{MAP}^{T}\vec \phi(\vec x), \sigma_{a}^{2}=\vec \phi(\vec x)^{T}S_{N}\vec \phi(\vec x)\\k(\sigma_{a}^{2})=(1+\pi\sigma_{a}^{2}/8)^{-1/2}$

2：Multiclass Logistic Regression：

我们假定

p (C k | ϕ ⃗ (x ⃗)) = y k (ϕ ⃗ (x ⃗)) = e x p ( a k ) \sum j e x p ( a j ) a k = w ⃗ T k ϕ ⃗ (x ⃗)

$p(C_{k}|\vec \phi(\vec x))=y_{k}(\vec \phi(\vec x))=\frac{exp(a_{k})}{\sum_{j}exp(a_{j})} \\ a_{k}=\vec w_{k}^{T}\vec \phi(\vec x)$

如果采取极大似然法，我们也需要求其似然函数，如下式所示：

p (T | w ⃗ 1 ， . . . ， w ⃗ k) = \prod n = 1 N \prod k = 1 K p (C k | ϕ ⃗ (x ⃗ n)) t n k = \prod n = 1 N \prod k = 1 K y t n k n k

$p(T|\vec w_{1}，...，\vec w_{k})=\prod_{n=1}^{N}\prod_{k=1}^{K}p(C_{k}|\vec \phi(\vec x_{n}))^{t_{nk}}=\prod_{n=1}^{N}\prod_{k=1}^{K}y_{nk}^{t_{nk}}$

等价地，我们需要极小化似然函数的负对数，也就是我们说的误差函数，如下式所示

E (w ⃗ 1, . . ., w ⃗ K) = - \sum n = 1 N \sum k = 1 K t n k ln y n k

$E(\vec w_{1},...,\vec w_{K})=-\sum_{n=1}^{N}\sum_{k=1}^{K}t_{nk}\ln{y_{nk}}$
该误差函数对应的Hessian矩阵也是正定的，因此该误差函数有一个极小值，因此我们也可以用Newton-Raphson update去获得对应的参数值

w⃗ 1,...,w⃗ K $\vec w_{1},...,\vec w_{K}$

3：Probit Regression：

在Generative Model推导中，如果类条件密度满足一定的分布，推导出来的后验概率分布为logistic或者是softmanx函数，这也是我们为什么在上面discriminative model讨论中直接假设后验分布为logistic或者是softmax函数的原因。但并不是所有类条件密度分布都能够导致上述简单的后验概率分布（比如类条件密度为高斯分布的混合），因此这说明我们可以在discriminative model中假设后验概率分布为其他类型的分布，一种就是假设其为inverse probit函数，显示如下：

p (t = 1 | a) = ϕ (a) = 1 2 {1 + e r f (a 2 ‾ ‾ \sqrt)} a = w ⃗ T ϕ ⃗ (x ⃗) e r f (a) = 2 ( \sqrt π ) \int a 0 e x p (- θ 2) d θ

$p(t=1|a)=\phi(a)=\frac{1}{2}\{1+erf(\frac{a}{\sqrt{2}})\} \ \ a=\vec w^{T}\vec \phi(\vec x) \\ erf(a)=\frac{2}{\sqrt(\pi)}\int_{0}^{a}exp(-\theta^2)d\theta$ 同样的我们也可以用极大似然法决定模型参数

w⃗ $\vec w$ 。

五：The Laplace Approximtion：

1：Laplace近似的目标就是对一个特定的概率密度分布找到其高斯近似。现在假设M维矢量 $\vec z$ 满足 $p(\vec z)=f(\vec z)/Z$ ，Z为归一化因子，其对应的高斯分布近似如下:

q (z ⃗) = | A | 1 / 2 ( 2 π ) M / 2 e x p {- 1 2 (z ⃗ - z ⃗ 0) T A (z ⃗ - z ⃗ 0)} = N (z ⃗ | z ⃗ 0, A - 1) A = - ▽ ▽ ln f (z ⃗) | z ⃗ = z ⃗ 0 = - ▽ ▽ ln p (z ⃗) | z ⃗ = z ⃗ 0

$q(\vec z)=\frac{|A|^{1/2}}{(2\pi)^{M/2}}exp\{-\frac{1}{2}(\vec z-\vec z_{0})^TA(\vec z-\vec z_{0})\}=N(\vec z|\vec z_{0},A^{-1})\\A=-\bigtriangledown \bigtriangledown \ln{f(\vec z)}|_{\vec z=\vec z_{0}}=-\bigtriangledown \bigtriangledown \ln{p(\vec z)}|_{\vec z=\vec z_{0}}$

z⃗ 0 $\vec z_{0}$ 是

p(z⃗ ) $p(\vec z)$ 的局部最大值点，即

▽p(z⃗ )z⃗ =z⃗ 0=▽f(z⃗ )z⃗ =z⃗ 0=0 $\bigtriangledown p(\vec z)_{\vec z=\vec z_{0}}=\bigtriangledown f(\vec z)_{\vec z=\vec z_{0}}=0$ ，另外需注意的是矩阵A应要为正定矩阵，这确保了

z⃗ 0 $\vec z_{0}$ 是局部最大值。

2：Model Comparison and BIC

（1）：我们对 $p(\vec z)$ 作了高斯分布假设，因此我们也能获得归一化因子Z的近似，其近似结果为:

Z = \int f (z ⃗) d z ⃗ \approx f (z ⃗ 0) ( 2 π ) M / 2 | A | 1 / 2

$Z=\int f(\vec z)d\vec z \approx f(\vec z_{0})\frac{(2\pi)^{M/2}}{|A|^{1/2}}$

（2）：我们在第三章提到过从贝叶斯观点出发的用于模型比较的model evidence p(D)。其计算公式为 $p(D)=\int p(D|\vec \theta)p(\theta)d\theta$ 。我们知道 $p(\vec \theta|D)=\{p(D|\theta)p(\theta)\}/p(D)$ ，我们对后验分布 $p(\vec \theta|D)$ 作高斯近似，我们可以鉴定出 $p(D)=Z，f(\theta)=p(D|\vec \theta)p(\theta)$ ，因此我们应用上述的对归一化因子Z的近似公式，可以得出下式：

ln p (D) \approx ln p (D | θ M A P) + ln p (θ M A P) + M 2 ln 2 π - 1 2 ln | A | A = - ▽ ▽ ln p (θ ⃗ M A P | D)

$\ln{p(D)}\approx \ln{p(D|\theta_{MAP})}+\ln{p(\theta_{MAP})}+\frac{M}{2}\ln{2\pi}-\frac{1}{2}\ln{|A|} \\ A=-\bigtriangledown \bigtriangledown \ln{p(\vec \theta_{MAP}|D)}$
上式左边第一项代表了使用最优化参数算出来的似然函数对数，后面三项的和称为”Occam factor”，对模型复杂度起惩罚作用，这样model evidence p(D)就起到了模型拟合好坏以及模型复杂度之间的一个权衡

（3）：如果我们假定关于参数 $\vec w$ 的先验分布无限宽并且Hessian矩阵满秩，然后我们能够得出上式的一种近似，表达形式如下：

ln p (D) \approx ln p (D | θ ⃗ M A P) - 1 2 M ln N

$\ln{p(D)} \approx \ln{p(D|\vec \theta_{MAP})}-\frac{1}{2}M\ln{N}$
我们称其为Bayesian Infromation Criterion（BIC）

（4）：BIC 和 AIC 都是用来评价模型的好坏，其优点是容易计算，但缺点是只能用于简单模型，应用性不高。代替的是，我们可以对后验分布采取Laplace近似来获取model evidence的一个更准确的估计。当然如果计算条件允许，我们可以不对后验分布采取任何近似，直接对参数 $\vec \theta$ 进行边际化。