PRML学习笔记---线性分类模型（生成模型 & 判别模型）

最新推荐文章于 2024-06-06 11:44:45 发布

静~墨

最新推荐文章于 2024-06-06 11:44:45 发布

阅读量970

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_29496135/article/details/82559588

本文深入探讨了逻辑回归模型的原理及应用，包括二分类问题的解决方法、类后验概率的建模过程，以及如何通过最大似然估计求解模型参数。此外，还介绍了两种高效的求解算法——梯度下降法和迭代再加权最小二乘法。

本偏笔记主要针对线性分类模型中的logistic regression 以及 multiclass logistic regression

Logistic Regression Model

逻辑回归模型是针对二类的分类模型，本质上其建模了类的后验概率

1.其由来（Probabilistic Generative Models）

根据贝叶斯公式，类的后验概率为：

p (C 1 | x) = p ( x | C 1 ) p ( C 1 ) p ( x | C 2 ) p ( C 2 ) + p ( x | C 1 ) p ( C 1 ) (1.1)

$p(C_1|\mathbf{x})=\frac{p(\mathbf{x}|C_1)p(C_1)}{p(\mathbf{x}|C_2)p(C_2)+p(\mathbf{x}|C_1)p(C_1)}\tag {1.1}$
假设我们定义如下一个式子：

a = l n p ( x | C 1 ) p ( C 1 ) p ( x | C 2 ) p ( C 2 ) (1.2)

$a = ln\frac{p(\mathbf{x}|C_1)p(C_1)}{p(\mathbf{x}|C_2)p(C_2)}\tag {1.2}$
那么恰有：

σ (a) = 1 1 + e x p ( - a ) = p (C 1 | x) (1.3)

$\sigma(a)=\frac{1}{1+exp(-a)}=p(C_1|\mathbf{x})\tag{1.3}$

也就是说，当我们做了式 $(1.2)$ 这样一个特殊的变量替换or换元后，类的后验概率可以用logistic sigmoid建模。实际上，我们知道logistic regression模型在做决策时：

$y = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ C 1, y > 0.5 C 2, y < 0.5 r a n d o m G u e s s, y = = 0.5 (1.4)$ $y=\begin{cases} C_1,\quad y > 0.5\\\\ C_2,\quad y < 0.5\\\\ randomGuess, y == 0.5 \end{cases}\tag{1.4}$
而当逻辑回归模型当输出为0.5时，也就是 $a = ln\frac{p(\mathbf{x}|C_1)p(C_1)}{p(\mathbf{x}|C_2)p(C_2)}= ln\frac{p(C_1|\mathbf{x})p(\mathbf{x})}{p(C_2|\mathbf{x})p(\mathbf{x})}=ln\frac{p(C_1|\mathbf{x})}{p(C_2|\mathbf{x})}=0.5$ , 换言之两类当后验概率相等时，无法做出决策。

2.其求解(Maximum likelihood)

如果输入变量是连续的

假设类条件概率密度（class-conditional distribution）服从高斯分布，并且两类的协方差一致。在这样的前提假设下，据式 $(1.2)$ 可化为

a = w T x + w 0 (2.1)

$a=\mathbf{w}^T\mathbf{x}+w_0\tag{2.1}$
其中

w = Σ - 1 (μ 1 - μ 2) (2.2)

$\mathbf{w}=\Sigma^{-1}(\mu_1-\mu_2)\tag{2.2}$

w 0 = - 1 2 μ T 1 Σ - 1 μ 1 + 1 2 μ T 2 Σ - 1 μ 2 + l n p 1 p 2 (2.3)

$w_0=-\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1+\frac{1}{2}\mu_2^T\Sigma^{-1}\mu_2+ln\frac{p_1}{p_2}\tag{2.3}$
则式

(1.3)(1.3) $(1.3)$ 可化为

p (C 1 | x) = σ (a) = σ (w T x + w 0) (2.4)

$p(C_1|\mathbf{x})=\sigma(a)=\sigma(\mathbf{w}^T\mathbf{x}+w_0)\tag{2.4}$
其中

μ1μ1 $\mu_1$ 和

μ2μ2 $\mu_2$ 分别为

C1C1 $C_1$ 和

C2C2 $C_2$ 类分布的期望，

ΣΣ $\Sigma$ 为分布的协方差。

也就是说在我们假定类条件密度分布服从高斯分布的前提下，最终类的后验概率是式 $(2.4)$ .可以看到最终的决策边界是线性超平面，也即 $\mathbf{w}^T\mathbf{x}=0$

要求类的后验，可以先求类的先验和类的条件密度分布的参数，再由贝叶斯公式（等价于直接使用式 $(2.2)$ 和 $(2.3)$ , $(2.4)$ ）。

假设当下训练数据集为 $\{\mathbf{x}_n,t_n\}$ ，且类别编码方式

t n = ⎧ ⎩ ⎨ ⎪ ⎪ 1, 若 为 C 1 0, e l s e

$t_n=\begin{cases} 1, 若为C_1\\\\ 0, else \end{cases}$
那么完全数据的对数似然函数为：

l n p (t, X | π, μ 1, μ 2, Σ) = l n \prod i = 1 N [π  (x n | μ 1, Σ)] t n [π  (x n | μ 2, Σ)] 1 - t n (2.5)

$ln p(\mathbf{t},\mathbf{X}|\pi,\mu_1,\mu_2,\Sigma)=ln\prod_{i=1}^N[\pi\mathcal N(\mathbf{x}_n|\mu_1,\Sigma)]^t_n [\pi\mathcal N(\mathbf{x}_n|\mu_2,\Sigma)]^{1-t_n}\tag{2.5}$
求解可得：

μ 1 = 1 N 1 \sum i = 1 N t n x n (2.6)

$\mu_1=\frac{1}{N_1}\sum_{i=1}^N t_n\mathbf{x}_n\tag{2.6}$

μ 2 = 1 N 2 \sum i = 1 N (1 - t n) x n (2.7)

$\mu_2=\frac{1}{N_2}\sum_{i=1}^N(1- t_n)\mathbf{x}_n\tag{2.7}$

Σ = S = N 1 N S 1 + N 2 N S 2 (2.8)

$\Sigma=\mathbf{S}=\frac{N_1}{N}\mathbf{S}_1+\frac{N_2}{N}\mathbf{S}_2\tag{2.8}$
其中

S i = 1 N i \sum n \in C i (x n - μ 1) (x n - μ 1) T (2.9)

$\mathbf{S}_i=\frac{1}{N_i}\sum_{n\in C_i}(\mathbf{x}_n-\mu_1)(\mathbf{x}_n-\mu_1)^T\tag{2.9}$

也就是说利用最大似然求解，类条件密度分布的期望为该类的数据的均值，而协方差则为各类协方差的加权平均

3.换个角度求解(Probabilistic Discriminative Models)

实际上,除了利用最大似然求解先验以及类的条件密度分布的参数后，隐式地利用式 $(2.2),(2.3),(2.4)$ 求解外，还有另一种求法。既然我们已经知道了类的后验概率可以在一定的假设下写作式 $(2.4)$ ，那么此时我们可以直接利用训练数据通过最大似然显式地求解参数 $\mathbf{w}$ 和 $w_0$

3.1 梯度下降

要利用随机梯度下降或者批梯度下降求解，我们需要获得的便是梯度

假设我们手中的训练集为 $\{\phi_n,t_n\}$ ,此处 $\phi_n = \phi(\mathbf{x}_n)$ 可视为对原始输入做了特征提取。那么似然函数为：

p (t | w) = \prod n = 1 N y t n n {1 - y n} 1 - t n (3.1)

$p(\mathbf{t}|\mathbf{w})=\prod_{n=1}^N y_n^{t_n}\{1-y_n\}^{1-t_n}\tag{3.1}$
其中

y n = p (C 1 | ϕ n) = σ (w T ϕ n) (3.2)

$y_n =p(C_1|\phi_n)=\sigma(\mathbf{w}^T\phi_n)\tag{3.2}$
那么损失函数便可定义为：

E (w) = - l n p (t | w) = - \sum n = 1 N {t n l n y n + (1 - t n) l n (1 - y n)} (3.3)

$E(\mathbf{w})=-lnp(\mathbf{t}|\mathbf{w})=-\sum_{n=1}^N\{t_nlny_n+(1-t_n)ln(1-y_n)\}\tag{3.3}$

注意到这个误差函数叫交叉熵损失函数

其关于参数 $\mathbf{w}$ 的导数为：

\nabla E (w) = \sum n = 1 N (y n - t n) ϕ n (3.4)

$\nabla E(\mathbf{w})=\sum_{n=1}^N(y_n-t_n)\phi_n\tag{3.4}$

3.2迭代再加权最小二乘法

对于参数 $\mathbf{w}$ 的求解除了一般的梯度下降，我们还可以使用更有效的迭代算法，这便是IRLS（IteRative reweighted least squares)。这个算法是基于Newton-Raphson Iterative optimization scheme:

w (n e w) = w (o l d) - H - 1 \nabla E (w) (3.5)

$\mathbf{w}^{(new)} =\mathbf{w}^{(old)}-\mathbf{H}^{-1}\nabla E(\mathbf{w})\tag{3.5}$
其中

HH $\mathbf{H}$ 为误差函数关于参数

ww $\mathbf{w}$ 的二阶导

这是一种局部二次近似，我们可以从线性回归模型来看看：
在线性回归模型中，我们知道对数似然函数是参数 $\mathbf{w}的二次函数$ ，其有解析解（Normal Equation），但是在利用梯度下降求解的时候，我们是逐步去逼近这个最优解（解析解）。但是如果我们用局部二次近似，便可以一步到位
：

$\nabla E (w) = \sum n = 1 N (w T ϕ n - t n) ϕ n = Φ T Φ w - Φ T t$ $\nabla E(\mathbf{w}) = \sum_{n=1}^N(\mathbf{w}^T\phi_n-t_n)\phi_n=\Phi^T\Phi\mathbf{w}-\Phi^T\mathbf{t}$
$\nabla \nabla E (w) = \sum n = 1 N ϕ n ϕ T n = Φ T Φ$ $\nabla\nabla E(\mathbf{w}) = \sum_{n=1}^N\phi_n\phi_n^T=\Phi^T\Phi$
$w (n e w) = w (o l d) - (Φ T Φ) - 1 {Φ T Φ w o l d - Φ T t} = (Φ T Φ) - 1 Φ T t (3.6)$ $\mathbf{w}^{(new)} =\mathbf{w}^{(old)}-(\Phi^T\Phi)^{-1}\{\Phi^T\Phi\mathbf{w^{old}}-\Phi^T\mathbf{t}\}=(\Phi^T\Phi)^{-1}\Phi^T\mathbf{t}\tag{3.6}$

那么对于logistic regression而言：

\nabla E (w) = \sum n = 1 N (y n - t n) ϕ n = Φ T (y - t) (3.7)

$\nabla E(\mathbf{w}) = \sum_{n=1}^N(y_n-t_n)\phi_n=\Phi^T(\mathbf{y}-\mathbf{t})\tag{3.7}$

\nabla \nabla E (w) = H = \sum n = 1 N y n (1 - y n) ϕ n ϕ T n = Φ T R Φ (3.8)

$\nabla\nabla E(\mathbf{w}) =\mathbf{H}= \sum_{n=1}^Ny_n(1-y_n)\phi_n\phi_n^T=\Phi^T\mathbf{R}\Phi\tag{3.8}$
其中

RR $\mathbf{R}$ 是一个对角阵，

Rnn=yn(1−yn)Rnn=yn(1−yn) $R_{nn}=y_n(1-y_n)$

w (n e w) = w (o l d) - (Φ T R Φ) - 1 Φ T (y - t) = (Φ T R Φ) - 1 Φ T R Z (3.9)

$\mathbf{w}^{(new)} =\mathbf{w}^{(old)}-(\Phi^T\mathbf{R}\Phi)^{-1}\Phi^T(\mathbf{y}-\mathbf{t})=(\Phi^T\mathbf{R}\Phi)^{-1}\Phi^T\mathbf{RZ}\tag{3.9}$
其中