Logistic回归

Viokiri

已于 2022-09-26 15:55:25 修改

阅读量2.3k

点赞数 1

于 2022-07-10 00:00:23 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_44570398/article/details/125680618

版权

Logistic回归虽然带有“回归”，但却是一个分类算法，分类算法是指可以根据包含正确答案给定数据集（训练集），来预测离散的值。

我们尝试预测目标变量 $y$ 的值，肯定是一个离散的值，这里以二元分类为例， $y$ 的取值可以为0或1

$y\in \left \{ 0, 1\right \}$

其中用0表示的类称为“负类”（Negative Class），而用1表示的类被称为“正类”（Positive Class）。

如果采用之前的线性回归算法的假设函数 $h_{\theta }(x)=\theta ^{T}x$ ，当输入变量很大或很小时，根据线性的关系可能会导致目标变量 $y$ 的值远大于1或远小于0，如下图所示

而Logistic算法就是让输出的目标变量 $y\in (0,1)$ ，使假设函数满足

$0\leqslant{h_\theta }(x)\leqslant 1$

和线性回归一样，Logistic回归同样有假设函数和代价函数。

1、假设函数

为了使假设函数 $h_\theta(x)\in [0,1]$ ，引入一个新的函数 $g(z)$ ，称为Sigmoid函数或者Logistic函数。

$g(z)=\frac{1}{1+e^{-z}}$

当 $z\rightarrow -\infty$ 时

$\underset{z\rightarrow -\infty }{\lim}g(z)=\underset{z\rightarrow -\infty }{\lim}\frac{1}{1+e^{-z}}=0$

当 $z\rightarrow \infty$ 时

$\underset{z\rightarrow +\infty }{\lim}g(z)=\underset{z\rightarrow +\infty }{\lim}\frac{1}{1+e^{-z}}=1$

因为 $g(z)$ 的导数

$g^{'}(z)=\frac{e^{-z}}{(1+e^{-z})^{2}}> 0$

所以 $g(z)$ 在 $(-\infty, +\infty )$ 上单调递增。

又因为 $g(z)$ 的二阶导数

$g''(z)=\frac{e^{-z}(e^{-z}-1)}{(1+e^{-z})^{3}}$

所以当 $z>0$ 时， $g''(z)<0$ ， $g(z)$ 为凸函数，当 $z<0$ 时， $g''(z)>0$ ， $g(z)$ 为凹函数。

故 $g(z)\in [0,1]$ ，其图像大致为

将线性回归的假设函数（也可以是多项式回归的假设函数）代入 $g(z)$ ，可以得到Logistic回归的假设函数

$h_{\theta }(x)=g(\theta ^{T}x)=\frac{1}{1+e^{-\theta ^{T}x}}$

这样假设函数 $h_{\theta }(x)$ 也属于 $[0,1]$ 。

该假设函数的意义为，当输入一个特征向量 $x$ ，假设函数 $h_{\theta }(x)$ 输出的值为 $y=1$ 的概率，既为

$h_{\theta }(x)=P(y=1|x,\theta )$

2、代价函数

训练集： $\left \{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots ,(x^{(m)},y^{(m)}) \right \}$ ，有 $m$ 个训练样本

其中

$x\in \begin{pmatrix} x_{0}\\ x_{1}\\ \vdots \\ x_{n} \end{pmatrix}$

输入变量 $x$ 为 $n +1$ 维向量，有 $n$ 个特征， $x_{0}=1$ ，目标变量 $y\in \left \{ 0,1 \right \}$

假设函数

$h_{\theta }(x)=g(\theta ^{T}x)=\frac{1}{1+e^{-\theta ^{T}x}}$

为了使梯度下降法更好的工作，我们应该使代价函数为凸函数，避免梯度下降法陷入局部最小，而达不到全局最小。

故代价函数为

$Cost(h_{\theta }(x),y)=\left\{\begin{matrix} -\log(h_{\theta }(x)),y=1\\ -\log(1-h_{\theta }(x)),y=0 \end{matrix}\right.$

当 $y=1$ 时，在输入特征向量 $x$ 后，假设函数 $h_{\theta }(x)$ 越趋向于1

$\underset{h_{\theta }(x)\rightarrow 1}{\lim}-\log(h_{\theta }(x))=0$

代价函数 $Cost(h_{\theta }(x),y)$ 越趋向于0，说明该假设函数越拟合训练集。

假设函数 $h_{\theta }(x)$ 越趋向于0

$\underset{h_{\theta }(x)\rightarrow 0}{\lim}-\log(h_{\theta }(x))=+\infty$

代价函数 $Cost(h_{\theta }(x),y)$ 越趋向于 $+\infty$ ，说明该假设函数误差越大。

同理可得，当 $y=0$ 时，在输入特征向量 $x$ 后，假设函数 $h_{\theta }(x)$ 越趋向于0

$\underset{h_{\theta }(x)\rightarrow 0}{\lim}-\log(1-h_{\theta }(x))=0$

代价函数 $Cost(h_{\theta }(x),y)$ 越趋向于0，说明该假设函数越拟合训练集。

假设函数 $h_{\theta }(x)$ 越趋向于1

$\underset{h_{\theta }(x)\rightarrow 1}{\lim}-\log(1-h_{\theta }(x))=+\infty$

代价函数 $Cost(h_{\theta }(x),y)$ 越趋向于 $+\infty$ ，说明该假设函数误差越大。

因为 $y\left \{ 0,1 \right \}$ ，是两个离散的值，所以我们可以简化代价函数为

$Cost(h_{\theta }(x),y)=-y\log (h_{\theta }(x))-(1-y)\log(1-h_{\theta }(x))$

这和上面的代价函数完全等价，但不必写成分段形式，最终我们可以写出代价函数为

$J(\overrightarrow{\theta})=\frac{1}{m}\sum_{i=1}^{m}Cost(h_{\theta }(x^{(i)}),y^{(i)}) \\=-\frac{1}{m}\sum_{i=1}^{m}\left [ y^{(i)}\log (h_{\theta }(x^{(i)}))+(1-y^{(i)})\log(1-h_{\theta }(x^{(i)})) \right ]$

3、梯度下降法及优化

为了得出 $\underset{\theta }{min}J(\theta )$ ，依旧采用梯度下降法，梯度下降法的公式和之前的一样

$\theta _{j}:=\theta _{j}-\alpha \cdot \frac{\partial J(\overrightarrow{\theta} )}{\partial \theta _{j}}$

因为最终的代价函数略微有点复杂，我们先将假设函数

$h_{\theta }(x)=\frac{1}{1+e^{-\theta ^{T}x}}$

代入代价函数

$J(\overrightarrow{\theta})=-\frac{1}{m}\sum_{i=1}^{m}\left [ y^{(i)}\log \left ( \frac{1}{1+e^{-\theta^{T}x^{(i)}}} \right )+(1-y^{(i)})\log\left ( \frac{e^{-\theta^{T}x^{(i)}}}{1+e^{-\theta^{T}x^{(i)}}} \right ) \right ]$

再对代价函数求偏导，看最终结果能不能化简

$\frac{\partial J(\overrightarrow{\theta} )}{\partial \theta _{j}}=-\frac{\ln 10}{m}\sum_{i=1}^{m}\left [y^{(i)}\cdot \frac{e^{-\theta ^{T}x^{(i)}}\cdot x_{j}^{(i)}}{1+e^{-\theta ^{T}x^{(i)}}}-(1-y^{(i)})\cdot \frac{x_{j}^{(i)}}{1+e^{-\theta ^{T}x^{(i)}}} \right ]\\=-\frac{\ln 10}{m}\sum_{i=1}^{m}\left [ x_{j}^{(i)}y^{(i)}- \frac{x_{j}^{(i)}}{1+e^{-\theta ^{T}x^{(i)}}} \right ]=-\frac{\ln 10}{m}\sum_{i=1}^{m}\left [ x_{j}^{(i)}\left ( y^{(i)}-\frac{1}{1+e^{-\theta ^{T}x^{(i)}}} \right ) \right ] \\= \frac{\ln 10}{m}\sum_{i=1}^{m}\left [ x_{j}^{(i)}\left ( h_{\theta }(x^{(i)})-y^{(i)} \right ) \right ]$

把常数 $\ln 10$ 省略，最后得出梯度下降的公式为

$\theta _{j}:= \theta _{j}-\alpha \cdot \frac{1}{m}\sum_{i=1}^{m}\left [ \left ( h_{\theta }(x^{(i)})-y^{(i)} \right )x_{j}^{(i)} \right ]$

将梯度下降法同时作用在所有 $\theta$ 上。

在实际运用中可以选择其他优化算法来计算 $\underset{\theta }{min}J(\theta )$

共轭梯度法
BFGS
L-BFGS

上述三种方法不需要选择学习率 $\alpha$ ，在给出代价函数 $J(\theta )$ 和偏导数 $\frac{\partial J(\theta )}{\partial \theta _{j}}$ 后，这些算法都有一个智能内循环，称为线搜索算法，它可以自动尝试不同的学习率 $\alpha$ ，并自动选择一个最优的 $\alpha$ ，甚至在每次迭代过程中都会选择合适的 $\alpha$ ，就结果而言，这些算法的收敛速度远大于梯度下降法。

4、决策边界

在利用梯度下降法计算出 $\underset{\theta }{min}J(\theta )$ 后，把对应的 $\theta$ 向量带入到假设函数中，之前提到假设函数根据输入的特征，计算出的值是 $y=1$ 的概率，当

$h_{\theta }(x)=\frac{1}{1+e^{-\theta ^{T}x}}\geqslant 0.5$

我们认为 $y=1$ ，而

$h_{\theta }(x)=\frac{1}{1+e^{-\theta ^{T}x}}<0.5$

反之则认为 $y=0$ 。

又因为 $g(z)$ 单调递增，所以当

$\theta ^{T}x\geqslant 0$

既在 $\theta ^{T}x$ 的上方，认为是 $y=1$ 的范围

而

$\theta ^{T}x< 0$

在 $\theta ^{T}x$ 的下方，认为是 $y=0$ 的范围。

因此 $\theta ^{T}x= 0$ 就是假设函数 $h_{\theta }(x)$ 的决策边界，决策边界是假设函数的属性，而不是训练集的属性。一旦确定，和训练集无关。

5、多元分类

上面所讲的都是二元分类问题， $y\in \left \{ 0,1 \right \}$ ，但在实际情况下可能并不只是二元分类，可能需要分成好几类，则需要的离散值也会随之增多，既n元分类

$y\in \left \{ 1,2,\cdots ,n \right \}$

这里以三元分类为例，有两个特征， $x_{1}$ 和 $x_{2}$ ，分成三个类别，如下图所示

我们需要将这个训练集转化为三个独立的二元分类问题，先从类别1开始

把类别1设置为正类别，其余的设置为负类别.

把类别2设置为正类别，其余设置为负类别。

把类别3设置为正类别，其余设置为负类别。

这样就拟合出了三个假设函数，有三条决策边界，每一个假设函数计算出的值都是该类别作为正类别时的概率，既

$h_{\theta }^{(i)}(x)=P(y=i|x;\theta )$ $(i=1,2,3)$

最后我们我们为了预测，给定一个新的输入特征向量 $x$ ，期望获得的目标变量就是三个假设函数中的最大值，表示落在哪个区域的概率最大，既计算

$\underset{\theta }{max}h_{\theta }^{(i)}(x)$

对于多元分类问题，我们还可以采用其他的假设函数，假设有 $n$ 个类别

$h_{\Theta }\left ( x \right ) =\begin{bmatrix} \left (h_{\Theta }\left ( x \right ) \right )_{1}\\ \left (h_{\Theta }\left ( x \right ) \right )_{2}\\ \vdots \\ \left (h_{\Theta }\left ( x \right ) \right )_{n} \end{bmatrix}$

其中

$\left (h_{\Theta }\left ( x \right ) \right )_{i}=(\theta)_{i}^{T}x$

每个输出类别 $\left (h_{\Theta }\left ( x \right ) \right )_{i}$ 的参数 $\theta_{i}$ 都不一样，但是

$\left (h_{\Theta }\left ( x \right ) \right )_{1}+\left (h_{\Theta }\left ( x \right ) \right )_{2}+\cdots +\left (h_{\Theta }\left ( x \right ) \right )_{n}=1$