逻辑回归原理及推导过程

最新推荐文章于 2025-11-09 10:42:23 发布

原创最新推荐文章于 2025-11-09 10:42:23 发布 · 6.6k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

22 篇文章

订阅专栏

本文深入解析了逻辑回归的原理及推导过程，介绍了如何通过添加sigmoid函数处理二分类问题，并详细推导了似然函数和对数似然函数，最终利用梯度上升法找到最优参数。

这篇文章将详细地讲解逻辑回归的推导过程。
原理：
逻辑回归处理的是分类问题，具体来说，是处理二分类问题。为了实现逻辑回归分类器，我们可以在线性回归的基础上（即每个特征乘以一个回归系数后相加），添加一个sigmoid函数，进而得到一个范围在0-1之间的数值。任何大于0.5的数据会被分入1类，小于0.5即被分入0类。至于为什么要用sigmoid函数，简单来说，是为了将标签归到[0,1]的范围内；深层原因，sigmoid函数的使用是由指数分布族决定的，具体内容会在下一篇博客中做详细讲解。
详细推导：
根据以上描述，我们可以得到预测值 $h_\theta(x)$ :

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_\theta(x) = g(\theta^Tx) = {1\over 1+e^{-\theta^Tx}}$
其中

g(z)=11+e−z $g(z) = {1\over 1+e^{-z}}$ 即为sigmoid函数。
以上二分类问题满足伯努利分布(Bernoulli distribution)，即：

p (y = 1 | x; θ) = h θ (x) p (y = 0 | x; θ) = 1 - h θ (x)

$p(y=1|x;\theta) = h_\theta(x) \\ p(y=0|x;\theta) = 1-h_\theta(x)$
因此：

p (y | x; θ) = h θ (x) y (1 - h θ (x)) 1 - y

$p(y|x;\theta) = h_\theta(x)^y (1-h_\theta(x))^{1-y}$
假设样本之间是相互独立的，即似然函数如下：

L (θ) = = = p (Y | X; θ) \prod i = 1 m p (y (i) | x (i); θ) (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i)

$\begin{eqnarray*} L(\theta) &=& p(Y|X;\theta) \\ &=&\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta) \\ &=&(h_\theta(x^{(i)}))^{y^{(i)}} (1-h_\theta(x^{(i)}))^{1-y^{(i)}} \end{eqnarray*}$
对数似然函数：

l (θ) = = = l o g L (θ) \sum i = 1 m l o g (h θ (x (i))) y (i) (1 - h θ (x (i))) 1 - y (i) \sum i = 1 m (y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i))))

$\begin{eqnarray*} l(\theta) &=& logL(\theta) \\ &=&\sum_{i=1}^mlog(h_\theta(x^{(i)}))^{y^{(i)}} (1-h_\theta(x^{(i)}))^{1-y^{(i)}} \\ &=&\sum_{i=1}^m(y^{(i)} log(h_\theta(x^{(i)})) + (1-y^{(i)})log(1-h_\theta(x^{(i)}))) \end{eqnarray*}$
为了方便理解，我们先对每一个样本进行分析，首先，对参数求导：

\partial l ( θ ) \partial θ j = = = y ( i ) h θ ( x ( i ) ) * \partial h θ ( x ( i ) ) \partial θ j + 1 - y ( i ) 1 - h θ ( x ( i ) ) * (- \partial h θ ( x ( i ) ) \partial θ j) y ( i ) ( 1 - h θ ( x ( i ) ) ) - ( 1 - y ( i ) ) h θ ( x ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) * \partial h θ ( x ( i ) ) \partial θ j y ( i ) - h θ ( x ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) * \partial h θ ( x ( i ) ) \partial θ j

$\begin{eqnarray*} {\partial l(\theta)\over \partial\theta_j} &=& {y^{(i)}\over h_\theta(x^{(i)})}*{\partial h_\theta(x^{(i)})\over \partial\theta_j} + {1-y^{(i)}\over 1-h_\theta(x^{(i)})}*(-{\partial h_\theta(x^{(i)})\over \partial\theta_j}) \\ &=& {y^{(i)}(1-h_\theta(x^{(i)}))-(1-y^{(i)})h_\theta(x^{(i)})\over h_\theta(x^{(i)})(1-h_\theta(x^{(i)}))}*{\partial h_\theta(x^{(i)})\over \partial\theta_j} \\ &=& {y^{(i)}-h_\theta(x^{(i)})\over h_\theta(x^{(i)})(1-h_\theta(x^{(i)}))}*{\partial h_\theta(x^{(i)})\over \partial\theta_j} \end{eqnarray*}$
其中

hθ(x)=11+e−θTx $h_\theta(x) = {1\over 1+e^{-\theta^Tx}}$ ，为了简化显示，这里省略x的上标i，所以：

\partial h θ ( x ) \partial θ j = = = = = - (1 + e - θ T x) - 2 * e - θ T x * (- x) e - θ T x ( 1 + e - θ T x ) 2 * x 1 + e - θ T x - 1 ( 1 + e - θ T x ) 2 * x (1 ( 1 + e - θ T x ) - 1 ( 1 + e - θ T x ) 2) * x h θ (x) * (1 - h θ (x)) * x

$\begin{eqnarray*} {\partial h_\theta(x)\over \partial\theta_j} &=& -(1+e^{-\theta^Tx})^{-2}*e^{-\theta^Tx}*(-x) \\ &=& {e^{-\theta^Tx}\over (1+e^{-\theta^Tx})^2}*x \\ &=& {1+e^{-\theta^Tx}-1\over (1+e^{-\theta^Tx})^2}*x \\ &=& ({1\over (1+e^{-\theta^Tx})}-{1\over (1+e^{-\theta^Tx})^2})*x \\ &=& h_\theta(x) *(1-h_\theta(x) )*x \end{eqnarray*}$
因此：

\partial l ( θ ) \partial θ j = = = y ( i ) - h θ ( x ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) * \partial h θ ( x ( i ) ) \partial θ j y ( i ) - h θ ( x ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) * h θ (x (i)) * (1 - h θ (x (i))) * x (i) (y (i) - h θ (x (i))) * x (i)

$\begin{eqnarray*} {\partial l(\theta)\over \partial\theta_j} &=& {y^{(i)}-h_\theta(x^{(i)})\over h_\theta(x^{(i)})(1-h_\theta(x^{(i)}))}*{\partial h_\theta(x^{(i)})\over \partial\theta_j} \\ &=& {y^{(i)}-h_\theta(x^{(i)})\over h_\theta(x^{(i)})(1-h_\theta(x^{(i)}))}*h_\theta(x^{(i)}) *(1-h_\theta(x^{(i)}) )*x^{(i)} \\ &=&(y^{(i)}-h_\theta(x^{(i)}))*x^{(i)} \end{eqnarray*}$
我们是要求使得似然函数最大时的

θ $\theta$ ,所以使用梯度上升法：