【机器学习】Logistic Regression逻辑回归算法_logistic regression算法-优快云博客

本文链接：https://blog.youkuaiyun.com/linjq071102/article/details/106213063

【机器学习】Logistic Regression逻辑回归算法

一、逻辑回归的概念
二、Sigmoid函数
三、逻辑回归为什么要用sigmoid函数而不是用其他呢？
四、目标函数
五、求解过程与正则化
六、总结
七、拓展

一、逻辑回归的概念

逻辑回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，经济预测等领域。逻辑回归从本质来说属于二分类问题，是基于Sigmoid函数（又叫“S型函数”）的有监督二类分类模型。

二、Sigmoid函数

Sigmoid函数公式为：
$\mathbf{g}(z)=\frac{1}{1+e^{-z}}$ 其导数形式为：（注意，导数形式在后面会被用到）
$\begin{aligned} \mathbf{g}'(z)&=\frac{d}{dz}\frac{1}{1+e^{-z}}\\ &=\frac{1}{(1+e^{-z})^2}(e^{-z})\\ &=\frac{1+e^{-z}-1}{(1+e^{-z})^2}\\ &=\frac{1}{(1+e^{-z})}(1-\frac{1}{(1+e^{-z})})\\ &=\mathbf{g}(z)(1-\mathbf{g}(z)) \end{aligned}$ Sigmoid函数其图像如下所示，其取值范围被压缩到0到1之间。 Alt
我们知道有监督分类问题需要有带类别标记的训练样本， $\mathbf{g}(z)$ 中的 $z$ 就对应训练集中某个样本的信息。而样本信息通常用一系列特征的线性组合来表示，即
$z=x_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$ 其中 $x$ 表示 $n$ 个特征， $\theta$ 是每个特征的权重，代表对应特征的重要程度， $x_0$ 是偏移，上式通常被写成向量形式： $\theta^Tx$ （其中 $x_0$ 对应的 $\theta$ 等于1）。那么Sigmoid函数就可以相应地写为如下的形式：
$h_\theta(x)=\mathbf{g}(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$ 假设我们知道了某个样本对应的特征取值和权重参数，那么只要将其带入上式即可得到一个0到1之间的数，通常认为 $h_\theta(x)\geq0.5$ 则属于正类别，反之属于负类别，即这个数其实反映了该样本属于正类别的概率。现在的问题是，我们手上有了训练集，即样本的都是已知的，而模型参数是未知的。我们需要通过训练集来确定未知的值。一旦被确定，每当面临新样本时，我们就可以将其对应的 $x$ 扔到 $h_\theta(x)$ 中，根据结果是否大于0.5，轻松加愉快地得出新样本的类别了。

三、逻辑回归为什么要用sigmoid函数而不是用其他呢？

首先需要了解几个知识点：
A.指数族分布
指数族分布下面的公式，即：
$p(y;\eta)=b(y)e^{\eta T(y)+\alpha(\eta)}$ 其中， $\eta$ 为自然参数， $T (y)$ 为充分统计量，通常 $T (y) = y$ ， $\alpha(\eta)$ 为正则化项。

B.广义线性模型
满足下面三个假设的模型成为广义线性模型：

$y|x;\theta$ 满足一个以 $\eta$ 为参数的指数族分布
给定 $x$ ，我们目标是预测 $y$ 的期望值，即 $h (x) = E (y ∣ x)$
$\eta=\theta^Tx$

因为逻辑回归假设数据服从伯努利分布，我们用一个简单例子来介绍伯努利分布：抛硬币，一枚硬币抛中正面的概率为 $p$ ，那么反面的概率则为 $1 - p$ 。那么伯努利分布的概率质量函数（PMF）为：
$f(y;p)=\begin{cases} p, & \text {y=1} \\ 1-p, &\text{y=0} \end{cases}$ 分段函数比较简单易懂，但是对于后面的推导比较麻烦，于是有：
$f(y;p)=p^y\cdot (1-p)^{1-y},\quad y\in\{0,1\}$ 对上式进行 $\log$ 变换操作：
$\begin{aligned} f(y;p)&=p^y\cdot (1-p)^{1-y}\\ &=exp(y\log(p)+(1-y)\log(1-p))\\ &=exp(y\log(p)+\log(1-p)-y\log(1-p))\\ &=exp(y\log(\frac{p}{1-p})+\log(1-p))\\ \end{aligned}$ 其中，令
$\begin{cases} \eta=\log(\frac{p}{1-p})\quad \Rightarrow p=\frac{1}{1+e^{-\eta}}\\ \alpha(\eta)=-\log(1-p)=\log(1+e^\eta)\\ b(y)=1 \end{cases}$ 即可以得出伯努利分布属于指数族分布。

即伯努利分布满足广义线性模型的第一个假设，下面利用广义线性模型后面两个假设得到：
$h_\theta(x)=E(y|x;\theta)=p=\frac{1}{1+e^{-\eta}}=\frac{1}{1+e^{-\theta^Tx}}$

四、目标函数

假设训练集中有 $m$ 个样本，每个样本属于正类别的概率为 $h_\theta(x)$ ，属于负类别的概率就是 $1-h_\theta(x)$ ，在训练过程中，我们应该尽可能地使整个训练集的分类结果与这 $m$ 个样本的类别标记尽可能地一致。换句话说，我们要使训练样本集分类正确的似然函数最大（每个样本相互独立），而我们可以很容易地写出如下的似然函数：
$L(\theta)=\prod_{i=1}^m h_\theta(x^i)^{y(i)}(1-h_\theta(x^i))^{1-y(i)}$ 其中 $y (i)$ 是训练集中第 $i$ 个样本已经被标记好的类别，若 $y (i)$ 为1.则上式的前半部分起作用，反之后半部分起作用。由于对 $L(\theta)$ 整体求 $\log$ ，其极值点保持不变，因此 $L(\theta)$ 可以简化为：
$l(\theta)=\prod_{i=1}^m y^{(i)}\log(h_\theta(x^i))+(1-y^{(i)})\log(1-h_\theta(x^i))$ 接下来的任务是求相应 $\theta$ 的值，使得 $l(\theta)$ 取最大值。如果 $l(\theta)$ 对整体取负号即为Logistic回归的损失函数（loss function），相应地，应该求使 $-l(\theta)$ 取最小值的 $\theta$ 。