机器学习线性模型(2)

最新推荐文章于 2025-06-25 17:12:17 发布

原创最新推荐文章于 2025-06-25 17:12:17 发布 · 400 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

我们已经知道如何使用线性模型进行回归学习，如果要做分类任务呢？

广义线性模型： $y=g^{-1}(\mathbf{w}^T\mathbf{x}+b)$

现在只需找到一个单调可微函数 $g^{-1}$ 将分类任务的真实标记 $y$ 与线性回归模型的预测值 $\mathbf{w}^T\mathbf{x}+b$ 联系起来.

考虑二分类任务， $y\in\{0,1\}$ , $z=\mathbf{w}^T\mathbf{x}+b$ 是实值，将实值z转化微0/1值，最理想的是单位跃进函数

y = ⎧ ⎩ ⎨ 0, 0.5, 1, z < 0 z = 0 z > 0

$y = \begin{cases} 0, & \text{$z<0$} \\ 0.5, & \text{$z=0$}\\ 1, & \text{$z>0$} \end{cases}$
但是单位跃进函数不连续，不是我们要找的

g−1g−1 $g^{-1}$ ，所以要找一个在一定程度上近似单位跃进函数的单调可微的函数，就是对数几率函数(logistic function)

y = 1 1 + e - z

$y={1\over 1+e^{-z}}$

这里写图片描述

从图中可以看到，对数几率函数是一种sigmoid函数(形似S的函数)

将对数几率函数作为 $g^{-1}$ ，得到

y = 1 1 + e - ( w T x + b ) — — — — — — — — (1)

$y={1\over 1+e^{-(\mathbf{w}^T\mathbf{x}+b)}}————————(1)$
做变换后：

l n y 1 - y = w T x + b — — — — — — — — (2)

$ln{y \over 1-y}=\mathbf{w}^T\mathbf{x}+b————————(2)$

若将y视作x作为正例的可能性，则1-y是x作为反例的可能性， ${y \over 1-y}$ 称作几率， $ln{y \over 1-y}$ 称为对数几率

可以看出式(2)是在用线性回归模型的预测结果去逼近真实标记y的对数几率，对应的模型叫对数几率回归模型(logistic regression)，注意：它实际是一种分类学习方法。

如何来确定(1)式中的 $\mathbf{w}$ 和b？将y视为类后验概率估计 $p(y=1|x)$ ，得到下式：

l n p ( y = 1 | x ) p ( y = 0 | x ) = w T x + b

$ln{p(y=1|x) \over p(y=0|x) }=\mathbf{w}^T\mathbf{x}+b$

\Rightarrow p ( y = 1 | x ) 1 - p ( y = 1 | x ) = e w T x + b

$\Rightarrow {p(y=1|x) \over 1-p(y=1|x) }=e^{\mathbf{w}^T\mathbf{x}+b}$

\Rightarrow p (y = 1 | x) = e w T x + b e w T x + b + 1

$\Rightarrow {p(y=1|x) }={e^{\mathbf{w}^T\mathbf{x}+b} \over e^{\mathbf{w}^T\mathbf{x}+b}+1}$
显然，

\Rightarrow p (y = 0 | x) = 1 e w T x + b + 1

$\Rightarrow {p(y=0|x) }={1\over e^{\mathbf{w}^T\mathbf{x}+b}+1}$
于是，我们可以通过极大似然法来估计

ww $\mathbf{w}$ 和b，给定数据集

(xi,yi),i=1,2…,m(xi,yi),i=1,2…,m ${(x_i,y_i)},i =1,2…,m$ ,对数几率回归模型最大化对数似然，即每个样本属于其真实标记的概率越大越好：

ℓ (w, b) = \sum i = 1 m l n p (y i | x i; w, b)

$\mathcal{\ell}(\mathbf{w},b)=\sum_{i=1}^m lnp(y_i|x_i;\mathbf{w},b)$
令：

β=(w;b)β=(w;b) $\beta=(\mathbf{w};b)$ ，

x^=(x;1)x^=(x;1) $\hat{x}=(x;1)$ ，故

wTx+b=βTx^wTx+b=βTx^ $\mathbf{w}^T\mathbf{x}+b=\beta^T\hat{x}$
令:

p1(x^;β)=p(y=1|x^;β)p1(x^;β)=p(y=1|x^;β) $p_1(\hat{x};\beta)={p(y=1|\hat{x};\beta)}$ ,

p0(x^;β)=p(y=0|x^;β)p0(x^;β)=p(y=0|x^;β) $p_0(\hat{x};\beta)={p(y=0|\hat{x};\beta)}$

似然项可以重写为：

p (y i | x i; w, b) = y i p 1 (x^; β) + (1 - y i) p 0 (x^; β)

$p(y_i|\mathbf{x_i};\mathbf{w},b)=y_ip_1(\hat{x};\beta)+(1-y_i)p_0(\hat{x};\beta)$

= y i e β T x ^ e β T x ^ + 1 + (1 - y i) 1 e β T x ^ + 1

$=y_i{e^{\beta^T\hat{x}} \over e^{\beta^T\hat{x}}+1}+(1-y_i){1\over e^{\beta^T\hat{x}}+1}$

= 1 + y i e β T x ^ - y i e β T x ^ + 1

$={1+y_ie^{\beta^T\hat{x}}-y_i \over e^{\beta^T\hat{x}}+1}$
对上式取对数

l n (1 + y i e β T x^- y i) - l n (e β T x^+ 1)

$ln(1+y_ie^{\beta^T\hat{x}}-y_i )-ln( e^{\beta^T\hat{x}}+1)$
因为

yi∈{0,1}yi∈{0,1} $y_i \in \{0,1\}$ ，所以上式的第一项要么为0，要么为

βTx^βTx^ $\beta^T\hat{x}$ ,故上边的最大化式等价于下面这个最小化式

ℓ (β) = \sum i = 1 m (- y i β T x^+ l n (e β T x^+ 1))

$\mathcal{\ell}(\beta)=\sum_{i=1}^m (-y_i\beta^T\hat{x}+ln( e^{\beta^T\hat{x}}+1))$

利用经典的数值优化算法如梯度下降、牛顿法都可以得到上式最优解。

β * = arg min β l (β)

$\beta^*=\arg\min_{\beta}\mathcal{l}(\beta)$

线性判别分析(LDA)也称为Fisher判别分析

思想：给定训练样例集，设法将样例投影到一条直线上，使类内方差最小，类间方差最大，使分类效果最好。

这里写图片描述

给定数据集 ${(x_i,y_i)},i =1,2…,m$ , $y_i \in \{0,1\}$ ，令 $X_i,\mu_i,\Sigma_i$ 分别表示第 $i \in \{0,1\}$ 类示例的集合、均值向量、协方差矩阵。

则两类样本的中心在直线上的投影分别为： $w^T\mu_0$ 和 $w^T\mu_1$

两类样本的协方差分别为： $w^T\Sigma_0w$ 和 $w^T\Sigma_1w$

使同类样例投影点尽可能近，可以让同类样例投影点的协方差尽可能小，即 $w^T\Sigma_0w+w^T\Sigma_1w$ 尽可能小。

使异类样例的投影点尽可能远，可以让类中心之间的距离尽可能大，即 $||w^T\mu_0-w^T\mu_1||^2$ 尽可能大。

所以我们的目标是最大化下式：

J = | | w T μ 0 - w T μ 1 | | 2 w T Σ 0 w + w T Σ 1 w

$J={{||w^T\mu_0-w^T\mu_1||^2} \over {w^T\Sigma_0w+w^T\Sigma_1w}}$

= w T ( μ 0 - μ 1 ) ( μ 0 - μ 1 ) T w w T ( Σ 0 + Σ 1 ) w

$={{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw} \over {w^T(\Sigma_0+\Sigma_1)w}}$

定义类内散度矩阵 $S_w$ :

S w = Σ 0 + Σ 1 = \sum x \in X 0 (x - μ 0) (x - μ 0) T + \sum x \in X 1 (x - μ 1) (x - μ 1) T

$S_w=\Sigma_0+\Sigma_1=\sum_{x\in X_0} (x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1} (x-\mu_1)(x-\mu_1)^T$
定义类间散度矩阵

SbSb $S_b$ :

S b = (μ 0 - μ 1) (μ 0 - μ 1) T

$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$
所以J可以重写为：

J = = w T S b w w T S w w

$J=={{w^TS_bw} \over {w^TS_ww}}$

这就是LDA要最大化的目标，即 $S_b$ 与 $S_w$ 的广义瑞利商。
可以看到，上式分子分母都是w的二次项，所以解与w的长度无关，只与其方向有关，不失一般性，令 $w^TS_ww=1$ ,则上式等价于

min w - w T S b w s . t . w T S w w = 1

$\min_w \ -w^TS_bw\\ s.t. \ \ \ \ w^TS_ww=1$

由拉格朗日乘子法，上式等价于：

S b w = λ S w w

$S_bw=\lambda S_ww$

Sbw=(μ0−μ1)(μ0−μ1)TwSbw=(μ0−μ1)(μ0−μ1)Tw $S_bw=(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw$ ,其中

(μ0−μ1)Tw(μ0−μ1)Tw $(\mu_0-\mu_1)^Tw$ 是一个标量，所以

SbwSbw $S_bw$ 的方向恒为

μ0−μ1μ0−μ1 $\mu_0-\mu_1$ ,故有：

Sbw=λ(μ0−μ1)Sbw=λ(μ0−μ1) $S_bw=\lambda(\mu_0-\mu_1)$ .

所以可以得到： $w=S_w^{-1}(\mu_0-\mu_1)$

当两类数据同先验，满足高斯分布且协方差相等时，LDA可以达到最优分类！

LDA推广到多分类任务中，emmmmm以后再看吧

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。