一个基础的模型——逻辑回归

最新推荐文章于 2022-05-14 22:30:31 发布

转载最新推荐文章于 2022-05-14 22:30:31 发布 · 328 阅读

本文详细介绍了逻辑回归模型，包括从线性回归推导而来的原因、二分类与多分类问题的处理方法、损失函数的设计原理以及激活函数的选择依据。此外还探讨了逻辑回归作为广义线性模型的特点。

逻辑回归是分类算法，可以支持二分类和多分类得问题，但是为什么称为回归？而不是分类呢？个人认为，第一，逻辑回归中保留了回归模型（线性回归）的思想；第二，逻辑回归在经过非线性转换为概率，然后用概率对类别。其中第二种思想在很多分类学习器中都有体现，如：神经网络， $GBDT$ .

1. 从线性回归导出逻辑回归

我们知道，线性回归就是以一个线性函数 $\hat Y = \theta \bar X$ 拟合真实标记 $Y$ ，损失函数为均方误差： $L(\bar X,Y \mid \theta) = \frac{1}{2m}(\hat Y - Y)^T(\hat Y - Y)$ ,最终根据最小二乘法得到拟合模型： $Y = \theta^* \bar X$ ；此时样本的标记 $Y$ 是连续的，如果 $Y$ 是离散的，我们强行使用线性回归会出现问题，因此我们需要一个能解决分类问题的模型。具体思想是：我们通过一个函数将线性回归的输出转换到样本所属类别概率上，最终通过拟合概率来得到模型，数学表示为：

P (Y ∣ X) = ϕ (θ X)

$P(Y \mid X) = \phi(\theta X)$

一般来说，我们的 $\phi(X):R\rightarrow[0,1]$ ，但是我们使用的确实 $sigmoid$ 函数： $\phi(x) = \frac{1}{1+e^{-x}}$ ；而不使用 $\phi(x) = \frac{1+tanh(x)}{2}$ 这是为什么呢（新浪面经）？在讲述玩逻辑回归后我们回就这个问题展开讨论.

2. 逻辑回归模型的二分类

2.1. 概率预测

为了简单起见，我们假设标记 $Y_i \in \{0,1\}, i = 1,{\ldots},n$ ，且在样本 $X_i$ 给定下，类别标记 $Y_i$ 独立同 $Bernoulli$ 分布，数学表述为：

P {Y i = 1 ∣ X i} = 1 - P {Y i = 0 ∣ X i} i = 1, \dots, n,

$P\{Y_i=1\mid X_i\} = 1-P\{Y_i=0 \mid X_i\}\quad{i = 1,{\ldots},n,}$
且

P {Y i, Y j ∣ X i, X j} = P {Y i ∣ X i} P {Y j ∣ X j} i, j = 1, \dots, n .

$P\{Y_i,Y_j\mid X_i,X_j\} = P\{Y_i \mid X_i\}P\{Y_j \mid X_j\}\quad i,j = 1,{\ldots},n.$

因此，对于样本集 $\{(x_i, y_i)\mid i=1,{\dots},n\}$ ，如第一节所述，

我们假设 $y_i=1$ 的条件概率为：

P {y i = 1 ∣ x i} = ϕ (θ x i),

$P\{y_i=1 \mid x_i\} = \phi(\theta x_i),$
那么

yi=0yi=0 $y_i = 0$ 的条件概率为：

P {x i = 0 ∣ x i} = 1 - ϕ (θ x i),

$P\{x_i = 0 \mid x_i \} = 1-\phi(\theta x_i),$
所以二分类问题

yiyi $y_i$ 的条件概率为：

P {y i ∣ x i} = ϕ (θ x i) y i (1 - ϕ (θ x i)) 1 - y i,

$P\{y_i \mid x_i\} = \phi(\theta x_i)^{y_i}(1-\phi(\theta x_i))^{1-y_i},$
统一形式，我们令

ϕ(θxi)=hθ(xi)ϕ(θxi)=hθ(xi) $\phi(\theta x_i) = h_{\theta}(x_i)$ ，得条件概率为：

P {y i ∣ x i} = h θ (x i) y i (1 - h θ (x i)) 1 - y i .

$P\{y_i \mid x_i\} = h_{\theta}(x_i)^{y_i}(1-h_{\theta}(x_i))^{1-y_i}.$

2.2. 损失函数

上节介绍了一个样本 $x_i$ 类别标记为 $y_i$ 得条件概率为： $P\{y_i \mid x_i\} = h_{\theta}(x_i)^{y_i}(1-h_{\theta}(x_i))^{1-y_i}$ ，那么所有样本 $X$ 类别标记为 $Y$ 的概率(似然函数)：

L (θ) = P {Y ∣ X, θ} = Π n i = 1 P {y i ∣ x i, θ} = Π n i = 1 P {y i ∣ x i} = Π n i = 1 h θ (x i) y i (1 - h θ (x i)) 1 - y i, (24) (25) (26)

$\begin{align} L(\theta) &= P\{Y \mid X, \theta\} = {\Pi_{i=1}^{n}}P\{y_i \mid x_i, \theta\}\\ &= \Pi_{i=1}^{n}P\{y_i \mid x_i\} \\ &= \Pi_{i=1}^{n}h_{\theta}(x_i)^{y_i}(1-h_{\theta}(x_i))^{1-y_i}, \end{align}$

我们将对数似然函数 $L(\theta)$ 取负及得损失函数：

J (θ) = - ln (L (θ)) = - ln (\prod n i = 1 h θ (x i) y i (1 - h θ (x i)) 1 - y i) = - \sum n i = 1 (y i ln (h θ (x i)) + (1 - y i) ln (1 - h θ (x i))) . (27) (28) (29) (30) (31)

$\begin{align} J(\theta) &= -\ln(L(\theta))\\ \\ &= -\ln(\prod\nolimits_{i=1}^{n}h_{\theta}(x_i)^{y_i}(1-h_{\theta}(x_i))^{1-y_i})\\ \\ &= -\sum\nolimits_{i=1}^n(y_i \ln(h_{\theta}(x_i)) + (1-y_i) \ln(1-h_{\theta}(x_i))). \end{align}$

2.3. 参数更新

从概率角度来讲，我们希望最大化所有样本 $X$ 被判为 $Y$ 的概率 $P\{Y \mid X,\theta\}$ ，也就是最大化对数似然函数 $L(\theta)$ ，或者说最小化损失函数 $J(\theta)$ :

θ * = min θ J (θ),

$\theta^* = \min_{\theta}J(\theta),$

常用的方法有牛顿法，坐标轴下降法，牛顿法等等；这里使用的方法是梯度下降法：
我们将 $J(\theta)$ 对 $\theta$ 求偏导：

\partial J ( θ ) \partial θ = - \sum i = 1 n (y i \partial ( ln ( h θ ( x i ) ) \partial θ + (1 - y i) \partial ( 1 - h θ ( x i ) ) \partial θ) = - \sum i = 1 n (y i h θ ( x i ) ( 1 - h θ ( x i ) ) h θ ( x i ) - (1 - y i) ( 1 - h θ ( x i ) ) h θ ( x i ) 1 - h θ ( x i )) x i = \sum i = 1 n (h θ (x i) - y i) x i (32) (33) (34)

$\begin{align} \frac{\partial J(\theta)}{\partial \theta} &= -\sum_{i=1}^n\Big (y_i \frac{\partial (\ln(h_{\theta}(x_i))}{\partial \theta} + (1-y_i)\frac{\partial(1 - h_{\theta}(x_i))}{\partial \theta}\Big)\\ &= -\sum_{i=1}^n\Big(y_i \frac{h_{\theta}(x_i)(1-h_{\theta}(x_i))}{h_{\theta}(x_i)} - (1-y_i)\frac{(1-h_{\theta}(x_i))h_{\theta}(x_i)}{1 - h_{\theta}(x_i)}\Big)x_i\\ &= \sum_{i=1}^n(h_{\theta}(x_i) - y_i)x_i \end{align}$

其中， $\frac {\partial h_{\theta}(x)}{\partial \theta} = h_{\theta}(x)(1-h_{\theta}(x)).$

得到参数 $\theta$ 的更新为：

θ = θ - η \sum i = 1 n (h θ (x i) - y i) x i

$\theta = \theta - \eta\sum_{i=1}^n(h_{\theta}(x_i) - y_i)x_i$

也可以写成矩阵形式：

θ = θ - η X T (h θ (X) - Y)

$\theta = \theta - \eta X^T(h_{\theta}(X) - Y)$

2.4. 正则化

回顾线性回归的正则化：为了防止过拟合，我们在损失函数上加上正则化，得到岭回归和 $Lasso$ 回归.
* 岭回归：
$J(\theta) = \frac{1}{2n}\sum_{i=1}^{n}(\theta^T\bar x_i - y_i)^2 + \lambda \sum_{i=1}^n\theta_i^2$

Lasso回归：
$J(\theta) = \frac{1}{2n}\sum_{i=1}^n(\theta^T\bar x_i - y_i)^2 + \lambda \sum_{i=1}^n|\theta_i|$

同理我们可以得到逻辑回归的正则化表示：

L1正则：

$J (θ) = - \sum i = 1 n (y i ln (h θ (x i)) + (1 - y i) ln (1 - h θ (x i))) + λ \sum i = 1 n | θ i |$ $J(\theta) = -\sum\limits_{i=1}^n(y_i \ln(h_{\theta}(x_i)) + (1-y_i) \ln(1-h_{\theta}(x_i))) + \lambda \sum_{i=1}^n|\theta_i|$
参数更新方法常用坐标轴下降法和最小角回归法.
L2正则：

$J (θ) = - \sum i = 1 n (y i ln (h θ (x i)) + (1 - y i) ln (1 - h θ (x i))) + λ \sum i = 1 n θ 2 i$ $J(\theta) = -\sum\limits_{i=1}^n(y_i \ln(h_{\theta}(x_i)) + (1-y_i) \ln(1-h_{\theta}(x_i))) + \lambda \sum_{i=1}^n\theta_i^2$
参数更新方法和一般的逻辑回归类似.

3. 逻辑回归的多分类

3.1. 多分类的经典策略

在机器学习中处理多分类问题主要使用拆分方法，经典的拆分策略有三种：”一对一”(OvO)，”一对其余”(OvR)，”多对多”(MvM).
给定训练数据 $(x_i,y_i)\ i =1,\dots,m,\ y_i \in \{C_1,C_2,\dots,C_N\}$ .

“一对一”(OvO)

(OvO)策略是将数据按类别俩俩配对进行训练，得到 $N(N-1)/2$ 个学习器，然后将训练结果投票表决.
“一对其余”(OvR)

OvR策略是将从数据中选出一个类别数据作为正例，其他类别数据统称为负例进行训练，最终得到 $N$ 个学习器，如果一个样本在 $N$ 个学习器下的结果只有一个则样本类别已确定，否则找出找出置信度最大的结果作为样本类别.
“多对多”(MvM)

MvM策略是每次将若干样本作为正例，若干样本作为负例，且正，负例具有独特的设计不能随便选取，最常用的MvM技术：”纠错输出码”.

3.2. 逻辑回归多分类

对付逻辑回归多分类，我们可以训练 $N-1\$ 个分类器，其中第 $k$ 个分类器用来输出 $y = C_k$ 的概率，回顾二分类问题，

P ( y = 1 ∣ x , θ ) P ( y = 0 ∣ x , θ ) = 1 / ( 1 + e θ T x ) e θ T x / ( 1 + e θ T x ) = 1 e θ T x

$\frac{P(y=1\mid x, \theta)}{P(y=0 \mid x, \theta)} = \frac{1/(1 + e^{\theta^Tx})}{e^{\theta^Tx}/(1 + e^{\theta^Tx})} = \frac{1}{e^{\theta^Tx}}$

类似有：

P ( y = C N ∣ x , θ ) P ( y = C 1 ∣ x , θ ) P ( y = C N ∣ x , θ ) P ( y = C 2 ∣ x , θ ) \dots \dots P ( y = C N ∣ x , θ ) P ( y = C N - 1 ∣ x , θ ) = 1 e θ T 1 x = 1 e θ T 2 x = 1 e θ T N - 1 x (35) (36) (37) (38)

$\begin{align} \frac{P(y=C_N \mid x, \theta)}{P(y=C_1 \mid x, \theta)} &= \frac{1}{e^{\theta_1^Tx}}\\ \frac{P(y=C_N \mid x, \theta)}{P(y=C_2 \mid x, \theta)} &= \frac{1}{e^{\theta_2^Tx}}\\ \dots\dots \\ \frac{P(y=C_N \mid x, \theta)}{P(y=C_{N-1} \mid x, \theta)} &= \frac{1}{e^{\theta_{N-1}^Tx}}\\ \end{align}$
且

\sum N k = 1 P (y = C k ∣ x, θ) = 1

$\sum\nolimits_{k=1}^{N}P(y=C_k \mid x, \theta) = 1$

通过上述 $N$ 个式子我们解得：

\begin{aligned} (39) & P (y = C_{k} ∣ x, θ) & = \frac{e^{θ_{k}^{T} x}}{1 + \sum_{i = 1}^{N - 1} e^{θ_{k}^{T} x}} k = 1, 2, \dots, N - 1 \\ (40) & P (y = C_{N} ∣ x, θ) & = \frac{1}{1 + \sum_{i = 1}^{N - 1} e^{θ_{k}^{T} x}} \end{aligned}

$\begin{align} P(y = C_k \mid x, \theta) &= \frac{e^{\theta_k^Tx}}{1 + \sum\nolimits_{i=1}^{N-1}e^{\theta_k^Tx}}\quad k = 1,2,\dots,N-1\\ P(y = C_N \mid x, \theta) &= \frac{1}{1 + \sum\nolimits_{i=1}^{N-1}e^{\theta_k^Tx}} \end{align}$

最终损失函数为：

J (θ) = - \sum i = 1 m \sum k = 1 K I (y i = C k) ln P (y i = C k ∣ x i, θ k)

$J(\theta) = -\sum_{i=1}^m\sum_{k=1}^KI(y_i=C_k)\ln P(y_i = C_k\mid x_i,\theta_k)$

容易看出，上述方法采用的是OvO的策略.

值得一提的是，我们也可以构造 $N$ 个学习器，这样输出就有 $N$ 个，可以通过 $softmax$ 函数转换得到 $N$ 个概率值，第 $k$ 个概率值就是 $y$ 为 $C_K$ 的概率：

P {y = C k ∣ x, Θ} = e θ T k x \sum N i = 1 e θ T i x k = 1, 2, \dots, N (41)

$\begin{align} P\{y = C_k \mid x, \Theta\} = \frac{e^{\theta_k^Tx}}{\sum_{i=1}^N e^{\theta_i^Tx}} \quad k =1,2,\dots,N \end{align}$

损失函数类似第一种方法.

4. 逻辑回归激活函数选取

在逻辑回归中，我们使用的确实 $sigmoid$ 函数： $\phi(x) = \frac{1}{1+e^{-x}}$ ；而不使用 $\phi(x) = \frac{1+tanh(x)}{2}$ 这是为什么呢？其实是有依据的，只有当使用 $sigmiod$ 函数做输出函数时逻辑回归模型才能算是一个广义线性模型(Generalized Linear Model).
在解释其原因之前我们先介绍两个概念.

A. 指数族分布

指数族分布满足下面公式：

p (y, η) = b (η) e η T (y) - α (η)

$p(y,\eta) = b(\eta)e^{\eta T(y) - \alpha(\eta)}$

其中 $\eta$ 为自然参数， $T(y)$ 是充分统计量，通常为 $T(y) = y$ ， $\alpha (\eta)$ 为正则化项.

举个例子，我们常见的指数分布：
$p(x)=\lambda e^{-\lambda x}$
显然是一个指数族分布，它对应着 $b(\lambda)$ ， $T(x)=x$ ， $\alpha(\lambda)=0$ 的情况.

B. 广义线性模型(GLM)

满足以下三个条件的模型称为GLM：

在 $x,\theta$ 下 $y$ 是一个参数为 $\eta$ 的指数族分布，或：

P (y ∣ x, θ) = b (η) e η T (y) - α (η)

$P(y \mid x, \theta) = b(\eta)e^{\eta T(y) - \alpha(\eta)}$

给定 $x$ ，我们的预测是 $y$ 的期望：

h (x) = E (y ∣ x)

$h(x) = E(y\mid x)$

参数 $\eta$ 满足：

η = θ T x

$\eta = \theta^Tx$

首先，我们可以看出，在二分类中， $Bernoulli$ 分布就是一个指数族分布.
二分类逻辑回归中，我们假设样本的类别标记服从 $Bernoulli$ 分布，所以

P (y ∣ x, θ) = ϕ y (1 - ϕ) 1 - k = e x p (y ln ϕ + (1 - y) ln (1 - ϕ)) = e x p (ln ϕ 1 - ϕ + ln (1 - ϕ)) (42) (43) (44)

$\begin{align} P(y \mid x, \theta) &= \phi^y(1 - \phi)^{1-k}\\ &= exp(y\ln \phi + (1-y)\ln(1 -\phi))\\ &= exp(\ln \frac{\phi}{1-\phi} + \ln(1-\phi)) \end{align}$

我们令：

⎧ ⎩ ⎨ ⎪ ⎪ η = ln ϕ 1 - ϕ \Rightarrow ϕ = 1 1 + e - η (s i g m o i d) α (η) = - ln (1 - ϕ) = ln (1 + e η) b (η) = 1

$\begin{cases} \eta = \ln \frac{\phi}{1-\phi} \Rightarrow \phi = \frac{1}{1+e^{-\eta}}(sigmoid)\\ \alpha(\eta) = -\ln(1-\phi)=\ln(1+e^{\eta})\\ b(\eta) =1 \end{cases}$

因此，条件概率可写成 $P(y \mid x, \theta) = b(\eta)e^{\eta y - \alpha(\eta)}$ ，这是一个指数族分布函数，同时我们也得出输出 $\phi(x) = \frac{1}{1+e^{-\eta}}$ (满足第一条).

其次，对于逻辑回归中 $Bernoulli$ 分布的期望：

E (y ∣ x, θ) = 1 \times P (y = 1 ∣ x, θ) + 0 \times P (y = 0, ∣, x, θ) = 1 \times ϕ = ϕ (满 足 第 二 条 .) (45) (46)

$\begin{align} E(y\mid x,\theta) &= 1 \times P(y=1 \mid x, \theta) + 0 \times P(y=0, \mid, x, \theta)\\ &= 1 \times \phi = \phi(满足第二条.) \end{align}$

最后我们令 $\eta = \theta^Tx$ (满足第三条).

所以在转换函数为 $\phi(x) = \frac{1}{1+e^{-\theta^Tx}}$ 下，逻辑回归模型是一个广义线性模型.

5.总结

逻辑回归模型是一个非常简单的模型，训练速度非常快，而且容易理解，一般在数据处理完毕之后第一时间使用的就是逻辑回归.，虽然使用起来没有支持向量机（SVM）那么占主流，但是解决普通的分类问题是足够了，训练速度也比起SVM要快不少。如果你要理解机器学习分类算法，那么第一个应该学习的分类算法个人觉得应该是逻辑回归。理解了逻辑回归，其他的分类算法再学习起来应该没有那么难了。