Logistic回归

最新推荐文章于 2021-02-17 09:27:19 发布

原创最新推荐文章于 2021-02-17 09:27:19 发布 · 2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文介绍了Logistic回归在二分类问题中的应用，详细阐述了sigmoid函数如何将数据映射到0-1之间作为概率，并通过极大似然估计来估计模型参数。Logistic回归模型的目标函数是极小化误差，采用牛顿法进行迭代求解，适用于解决分类问题。

Logistic回归：

1.1 Logistic回归简介

Logistic回归用于分类，样本是两类的情况，也就是一类用0表示，一类用1表示，常说的0-1分类情况。样本用 $X=\left \{ x_{1},x_{2},...,x_{N} \right \}$ 表示， $X$ 是样本集合， $x_{i}$ 表示第 $i$ 个样本， $x_{i}$ 是一个 $n$ 维的向量，可以是行向量，也可以是列向量，一般情况下向量都代表列向量(大部分的人都喜欢这么用)，所以本文所说的向量都是代表列向量。 $x_{i}\epsilon \mathbb{R}^{n}$ 表示每一个样本的维度都是 $n$ 。

在0-1分类问题中，如果不从概率的角度考虑问题，那就是要么某个样本属于第一类，要么就不属于第一类，这是一个确定性的问题。但是从概率的角度看待这个问题，应该认为某个样本可能属于第一类，并且属于第一类的概率用 $P$ 表示，那么不属于第一类的概率就是 $1-P$ ，如果 $P> 0.5$ ，那就表示这个样本属于第一类，反之不属于第一类。

经过科学家不懈的努力，终于找到了一个适合这样的函数，可以将任何数据映射到0,1之间。而概率也恰恰是0,1之间的数，那也就表明要被分类的样本可以映射到0,1之间，这个映射得到的结果值就是属于第一类的概率。采用的sigmoid函数，它的表达式如下：

$\frac{1}{1+e^{-Z}}$ (1)

它的图像如下：

它是一个属于0,1之间的一个函数值，当 $Z$ 趋向于负无穷的时候等于0，当 $Z$ 趋向于正无穷的时候等于1。采用这种形式，第 $i$ 个样本属于第一类的概率可以用如下的式子表达：

$P\left ( y_{i}=1 \right|x_{i},\theta)=\pi _{i}=\frac{1}{1+e^{-g\left ( x_{i} \right )}}$ (2)

$P\left ( y_{i}=0 \right|x_{i},\theta)=1-\pi _{i}$ (3)

式子(2)，(3)中的 $g\left ( x_{i} \right )$ 等价于式子(1)中的 $Z$ ，式子(2)代表样本属于第一类的概率，式子(3)代表样本不属于第一类的概率。 $y_{i}$ 代表样本的类别，等于1代表属于第一类，等于0代表不属于第一类，也就是属于第二类。每个样本都有一个对应的类别标签值，等于1或者等于0。 $\theta$ 表示参数，也就是 $x_{i}$ 做映射 $g\left ( \cdot \right )$ 所需要的参数。通过上述表述知道，属于第一类的概率大于0.5就表示这个样本属于第一类，反之属于第二类或者不属于第一类。用公式可以表达如下：

$\frac{P\left ( y_{i}=1|x_{i},\theta \right )}{P\left ( y_{i}=0|x_{i},\theta \right )}=\frac{\pi _{i}}{1-\pi _{i}}=e^{g\left ( x_{i} \right )}> 1$ (4)

通过式子(4)，可以得到以下结果，当 $g\left ( x_{i} \right )> 0$ 属于第一类， $g\left ( x_{i} \right )< 0$ 属于第二类。

映射 $g\left ( \cdot \right )$ 采用最简单的线性组合方式，它的表达形式如下：

$g(x_{i})=\theta _{0}+\theta _{1}x_{i}^{1}+...+\theta _{n}x_{i}^{n}=\theta ^{T}\begin{bmatrix} 1\\ x_{i} \end{bmatrix}$ (5)

式子(5)中的 $\theta =\left ( \theta _{0},\theta _{1},...,\theta _{n} \right )^{T}$ (也可以用中括号，不同的人或许有不同的表达方式，但是意义是一样的)， $x_{i}=\left ( x_{i}^{1},x_{i}^{2},...,x_{i}^{n}\right )^{T}$ 。对式子(4)取对数，得到线性函数，就得到如下结果：

$log\frac{\pi _{i}}{1-\pi _{i}}=g\left ( x_{i} \right )$ (6)

1.2 极大似然估计

极大似然估计用来估计在模型取得最优值得时候的参数取值，Logistic正是一个概率模型，可以用极大似然估计的方法取得参数的最优值。对于第 $i$ 个样本，它的类别标签等于1或者0，满足伯努利分布，它的概率表达式如下(也是单个样本的似然函数)：

$P(y_{i})=\pi _{i}^{y_{i}}\left ( 1-\pi _{i} \right )^{1-y_{i}}$ (7)

式子(7)只是结合上述的式子的一个结果，对样本做一个假设，那就是满足独立同分布，所有样本的概率表达式子(似然函数)如下：

$L=\prod _{i=1}^{N}\pi _{i}^{y_{i}}\left ( 1-\pi _{i} \right )^{1-y_{i}}$ (8)

对上述似然函数(也就是式子(8))取对数，得到如下结果：

$l=logL=\sum _{i=1}^{N}\left ( y_{i}log\pi _{i}+\left ( 1-y_{i} \right )log\left ( 1-\pi _{i} \right ) \right )$ (9)

式子(9)有些写成ln，其实是一样的意思，只是一个符号表达而已，没有别的意思。对式子(9)进行化简，得到如下结果：

$l=y_{i}g\left ( x_{i} \right )-log\left ( 1+e^{g\left ( x_{i} \right )} \right )$ (10)

极大化似然函数也就是极大化式子(10)对应的函数，极大化式子(10)也就是极小化下面的函数：

$-y_{i}g\left ( x_{i} \right )+log\left ( 1+e^{g\left ( x_{i} \right )} \right )$ (11)

将式子(5)带入到式子(11)中，得到如下结果：

$-y_{i}\theta ^{T}\widetilde{x_{i}}+log\left ( 1+e^{\theta ^{T}\widetilde{x_{i}}} \right )$ (12)

式子(12)中的 $\widetilde{x_{i}}=\left ( 1,x_{i} \right )^{T}$ ，让式子(12)对参数求导，令导数等于0，得到的结果就是我们要的最优值。通过上面的解释，此模型的目标函数就是极小化式子(12)，从而估计参数，目标函数表达形式如下：

$\theta ^{*}=\underset{\theta}{argmin } l\left ( \theta \right )$ (13)

式子(13)中的argmin代表目标函数取极小值的意思。 $\theta ^{*}$ 表示目标函数取极小值是的最优的参数估计值。 $l\left ( \theta \right )$ 表示式子(12)。直接对式子(12)或者(13)求偏导数，并且让它等于0，不过没有解析解，所以我们需要根据迭代的方法求得数值解。

式子式子(12)对参数 $\theta$ 是高阶可导连续凸函数，采用凸优化理论中牛顿法求得其解，其第 $t+1$ 次迭代更新的公式为：

$\theta ^{t+1}=\theta ^{t}-\left ( \frac{\partial ^{2}l\left ( \theta \right )}{\partial \theta \partial \theta ^{T}} \right )^{-1}\frac{\partial l\left ( \theta \right )}{\partial \theta }$ (14)

$\frac{\partial ^{2}l\left ( \theta \right )}{\partial \theta \partial \theta ^{T}}=\sum _{i=1}^{N}\widetilde{x_{i}}\widetilde{x_{i}}^{T}p_{i}\left ( 1-p_{i} \right )$ (15)