学习笔记——机器学习--逻辑回归理论推导

最新推荐文章于 2025-01-02 11:11:54 发布

liuyhoo

最新推荐文章于 2025-01-02 11:11:54 发布

阅读量562

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/liuyhoo/article/details/81535814

机器学习专栏收录该内容

7 篇文章

订阅专栏

本文深入介绍了逻辑回归的基本原理，从线性回归的概念出发，详细解释了如何利用sigmoid函数进行二分类预测，并通过极大似然估计法求解参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在介绍Logistic Regression之前我们先简单说一下线性回归，，线性回归的主要思想就是通过历史数据拟合出一条直线，用这条直线对新的数据进行预测
线性回归的公式如下：

y = h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n = θ T x (532)

$\begin{align} y={{h}_{\theta }}(x)={{\theta }_{0}}+{{\theta }_{1}}{{x}_{1}}+{{\theta }_{2}}{{x}_{2}}+\cdots +{{\theta }_{n}}{{x}_{n}}={{\theta }^{T}}x \end{align}$

而对于Logistic Regression来说，其思想也是基于线性回归（Logistic Regression属于广义线性回归模型）。其公式如下：

h θ (x) = g (θ T x) = 1 1 + e - θ T x g (z) = 1 1 + e - z (533) (534)

$\begin{align} & {{h}_{\theta }}(x)=g({{\theta }^{T}}x)=\frac{1}{1+{{e}^{-{{\theta }^{T}}x}}} \\ & \ \ \ \ \ \ \ g(z)=\frac{1}{1+{{e}^{-z}}} \\ \end{align}$

被称作sigmoid函数，我们可以看到，Logistic Regression算法是将线性函数的结果映射到了sigmoid函数中。
sigmoid的函数图形如下：

可以看到，sigmoid的函数输出是介于（0，1）之间的，中间值是0.5，于是之前的公式 ${{h}_{\theta }}(x)$ 的含义就很好理解了，因为 ${{h}_{\theta }}(x)$ 输出是介于（0，1）之间，也就表明了数据属于某一类别的概率，例如：
${{h}_{\theta }}(x)<0.5$ 则说明当前数据属于A类；
${{h}_{\theta }}(x)>0.5$ 则说明当前数据属于B类。
所以我们可以将sigmoid函数看成样本数据的概率密度函数。有了上面的公式，我们接下来需要做的就是怎样去估计参数 $\theta$ 。
首先我们来看， $\theta$ 函数的值有特殊的含义，它表示 ${{h}_{\theta }}(x)$ 结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x) (535) (536)

$\begin{align} & P(y=1\left| x \right.;\theta )={{h}_{\theta }}(x) \\ & P(y=0\left| x \right.;\theta )=1-{{h}_{\theta }}(x) \end{align}$

根据上式，接下来我们可以使用概率论中极大似然估计的方法去求解损失函数，首先得到概率函数为：

P (y | x; θ) = (h θ (x)) y \times (1 - h θ (x)) 1 - y (537)

$\begin{align} P(y\left| x \right.;\theta )={{({{h}_{\theta }}(x))}^{y}}\times {{(1-{{h}_{\theta }}(x))}^{1-y}} \end{align}$

因为样本数据(m个)独立，所以它们的联合分布可以表示为各边际分布的乘积,取似然函数为：

L (θ) = Π m i = 1 P (y (i) ∣ ∣ x (i); θ) = Π m i = 1 (h θ (x (i))) y (i) \times (1 - h θ (x (i))) 1 - y (i) (538) (539)

$\begin{align} & L(\theta )=\underset{i=1}{\overset{m}{\mathop{\Pi }}}\,P({{y}^{(i)}}\left| {{x}^{(i)}} \right.;\theta ) \\ & \ \ \ \ \ \ \ \ =\underset{i=1}{\overset{m}{\mathop{\Pi }}}\,{{({{h}_{\theta }}({{x}^{(i)}}))}^{{{y}^{(i)}}}}\times {{(1-{{h}_{\theta }}({{x}^{(i)}}))}^{1-{{y}^{(i)}}}} \\ \end{align}$

取对数似然函数：

l (θ) = l o g (L (θ)) = \sum i = 1 m log ((h θ (x (i))) y (i)) + l o g ((1 - h θ (x (i))) 1 - y (i)) = \sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) l o g ((1 - h θ (x (i))) (540) (541)

$\begin{align} & l(\theta )=log(L(\theta ))=\sum\limits_{i=1}^{m}{\log ({{({{h}_{\theta }}({{x}^{(i)}}))}^{{{y}^{(i)}}}})+log({{(1-{{h}_{\theta }}({{x}^{(i)}}))}^{1-{{y}^{(i)}}}})} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sum\limits_{i=1}^{m}{{{y}^{(i)}}\log ({{h}_{\theta }}({{x}^{(i)}}))+(1-{{y}^{(i)}})log((1-{{h}_{\theta }}({{x}^{(i)}}))} \\ \end{align}$

给出损失函数 $J(\theta )=l(\theta )$ ，对 $J(\theta )$ 求偏导数

\partial \partial θ j J (θ) = \partial \partial θ j (\sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) l o g ((1 - h θ (x (i)))) = \sum i = 1 m (y ( i ) h θ ( x ( i ) ) - ( 1 - y ( i ) ) 1 - h θ ( x ( i ) )) \partial \partial θ j h θ (x (i)) = \sum i = 1 m (y ( i ) g ( θ T x ( i ) ) - ( 1 - y ( i ) ) 1 - g ( θ T x ( i ) )) \partial \partial θ j g (θ T x (i)) (542) (543) (544)

$\begin{align} & \frac{\partial }{\partial {{\theta }_{j}}}J(\theta )=\frac{\partial }{\partial {{\theta }_{j}}}\left( \sum\limits_{i=1}^{m}{{{y}^{(i)}}\log ({{h}_{\theta }}({{x}^{(i)}}))+(1-{{y}^{(i)}})log((1-{{h}_{\theta }}({{x}^{(i)}}))} \right) \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sum\limits_{i=1}^{m}{\left( \frac{{{y}^{(i)}}}{{{h}_{\theta }}({{x}^{(i)}})}-\frac{(1-{{y}^{(i)}})}{1-{{h}_{\theta }}({{x}^{(i)}})} \right)\frac{\partial }{\partial {{\theta }_{j}}}{{h}_{\theta }}({{x}^{(i)}})} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sum\limits_{i=1}^{m}{\left( \frac{{{y}^{(i)}}}{g({{\theta }^{T}}{{x}^{(i)}})}-\frac{(1-{{y}^{(i)}})}{1-g({{\theta }^{T}}{{x}^{(i)}})} \right)\frac{\partial }{\partial {{\theta }_{j}}}g({{\theta }^{T}}{{x}^{(i)}})} \\ \end{align}$

因为

g (θ T x) = 1 1 + e - θ T x (545)

$\begin{align} g({{\theta }^{T}}x)=\frac{1}{1+{{e}^{-{{\theta }^{T}}x}}} \end{align}$

所以

\partial \partial θ j g (θ T x (i)) = \partial \partial θ j (1 1 + e - θ T x ( i )) = - - e - θ T x ( i ) ( 1 + e - θ T x ( i ) ) 2 \cdot \partial \partial θ j θ T x (i) (546)

$\begin{align} \frac{\partial }{\partial {{\theta }_{j}}}g({{\theta }^{T}}{{x}^{(i)}})=\frac{\partial }{\partial {{\theta }_{j}}}(\frac{1}{1+{{e}^{-{{\theta }^{T}}{{x}^{(i)}}}}})=-\frac{-{{e}^{-{{\theta }^{T}}{{x}^{(i)}}}}}{{{(1+{{e}^{-{{\theta }^{T}}{{x}^{(i)}}}})}^{2}}}\cdot \frac{\partial }{\partial {{\theta }_{j}}}{{\theta }^{T}}{{x}^{(i)}} \end{align}$

\partial \partial θ j J (θ) = \sum i = 1 m (y ( i ) g ( θ T x ( i ) ) - ( 1 - y ( i ) ) 1 - g ( θ T x ( i ) )) (- - e - θ T x ( i ) ( 1 + e - θ T x ( i ) ) 2 \cdot \partial \partial θ j θ T x (i)) = \sum i = 1 m (y ( i ) g ( θ T x ( i ) ) - ( 1 - y ( i ) ) 1 - g ( θ T x ( i ) )) g (θ T x (i)) (1 - g (θ T x (i))) \partial \partial θ j θ T x (i) = \sum i = 1 m (y ( i ) g ( θ T x ( i ) ) - ( 1 - y ( i ) ) 1 - g ( θ T x ( i ) )) g (θ T x (i)) (1 - g (θ T x (i))) \partial \partial θ j (θ 0 + θ 1 x (i) 1 + θ 2 x (i) 2 + \dots θ j x (i) j \dots + θ n x (i) n) = \sum i = 1 m (y (i) (1 - g (θ T x (i))) - g (θ T x (i)) (1 - y (i))) \cdot x (i) j = \sum i = 1 m (y (i) - h θ (x (i))) \cdot x (i) j (547) (548) (549) (550) (551)

$\begin{align} & \frac{\partial }{\partial {{\theta }_{j}}}J(\theta )\ =\sum\limits_{i=1}^{m}{\left( \frac{{{y}^{(i)}}}{g({{\theta }^{T}}{{x}^{(i)}})}-\frac{(1-{{y}^{(i)}})}{1-g({{\theta }^{T}}{{x}^{(i)}})} \right)\left( -\frac{-{{e}^{-{{\theta }^{T}}{{x}^{(i)}}}}}{{{(1+{{e}^{-{{\theta }^{T}}{{x}^{(i)}}}})}^{2}}}\cdot \frac{\partial }{\partial {{\theta }_{j}}}{{\theta }^{T}}{{x}^{(i)}} \right)} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sum\limits_{i=1}^{m}{\left( \frac{{{y}^{(i)}}}{g({{\theta }^{T}}{{x}^{(i)}})}-\frac{(1-{{y}^{(i)}})}{1-g({{\theta }^{T}}{{x}^{(i)}})} \right)g({{\theta }^{T}}{{x}^{(i)}})(1-g({{\theta }^{T}}{{x}^{(i)}}))\frac{\partial }{\partial {{\theta }_{j}}}{{\theta }^{T}}{{x}^{(i)}}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sum\limits_{i=1}^{m}{\left( \frac{{{y}^{(i)}}}{g({{\theta }^{T}}{{x}^{(i)}})}-\frac{(1-{{y}^{(i)}})}{1-g({{\theta }^{T}}{{x}^{(i)}})} \right)g({{\theta }^{T}}{{x}^{(i)}})(1-g({{\theta }^{T}}{{x}^{(i)}}))\frac{\partial }{\partial {{\theta }_{j}}}({{\theta }_{0}}+{{\theta }_{1}}x_{1}^{(i)}+{{\theta }_{2}}x_{2}^{(i)}+\cdots {{\theta }_{j}}x_{j}^{(i)}\cdots +{{\theta }_{n}}x_{n}^{(i)})} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sum\limits_{i=1}^{m}{\left( {{y}^{(i)}}(1-g({{\theta }^{T}}{{x}^{(i)}}))-g({{\theta }^{T}}{{x}^{(i)}})(1-{{y}^{(i)}}) \right)\cdot x_{j}^{(i)}} \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\sum\limits_{i=1}^{m}{\left( {{y}^{(i)}} - {{h}_{\theta }}({{x}^{(i)}})\right)\cdot x_{j}^{(i)}} \end{align}$

从而迭代