逻辑回归（一）—— 基本推导

最新推荐文章于 2023-05-29 14:41:30 发布

木子六日

最新推荐文章于 2023-05-29 14:41:30 发布

阅读量404

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习/深度学习文章标签：机器学习 python 逻辑回归人工智能

本文链接：https://blog.youkuaiyun.com/Paul_1i/article/details/104073022

机器学习/深度学习专栏收录该内容

22 篇文章

订阅专栏

本文深入探讨逻辑回归原理，从sigmoid函数出发，解释如何使用极大似然估计确定参数，并通过梯度下降法优化代价函数，实现分类预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

逻辑回归

介绍

逻辑回归是用来做分类的，样本已经做好了分类，我们构建模型使得面对一个新的样本时可以对它进行分类。

sigmoid函数

先来看这样一个函数
$\frac{1}{1+e^{-x}}$
这个函数叫做sigmoid函数，它的图像是这样的 sigmoid函数图像

可以看到无论x去什么值，总能把y映射到0~1之间。
$h_\theta(x)=\frac{1}{1+e^{-\theta^T x}}$
通过这个式子，我们就把原本的y值重新映射了一遍，所有的 $hθ(x)h_\theta(x)$ 都处在0~1之间，对于h值大于0.5的我们将其类别标记为1，对于h值小于0.5的我们将其类别标记为0。这样就完成了分类。

极大似然估计

一些事情已经发生了，我们就把他们当做是在最大概率的情况下发生的，这就是极大似然估计。

举个例子，一个盒子里有100个球，有黑白两种颜色，但不知道黑白具体数量。

现在你一把抓了10个球，9黑1白，那么盒子里最有可能的分布是什么？

自然是90个黑球，10个白球，因为这种情况会让我们有最大概率抓到9黑1白。

也就是说我们要找到最大概率使得现状发生的这种情况，这种情况也就是最有可能的原有状况。

假设事件 $x_i$ 发生的概率为 $P_{x_i}$ ,那么这些事件都发生的概率就是：
$P_总=\prod_{i=1}^nP_{x_i}$
此时我们还不知道 $θ\theta$ 的具体值，我们的目的就是求出使得 $P_总$ 达到最大的 $θ\theta$ .

$∏i=1nP(xi,θ)\prod_{i=1}^{n}P(x_i,\theta)$ 也被称为似然函数。

代价函数

sigmoid函数的值域处在0~1之间，正好用来表示概率。

因此事件 $x_i$ 发生的概率就是
$P(x_i,\theta)= \begin{cases} h_\theta(x_i) \,\,\,\,\,\,\,\,\,\,,y=1 \\ 1-h_\theta(x_i) ,y=0 \end{cases}$
写成一个式子就是
$P(x_i,\theta)=h_\theta(x_i)^y(1-h_\theta(x_i))^{1-y}$
那么 $P_总$ 就是
$P_总=\prod_{i=1}^n h_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{1-y_i}$
乘法太麻烦，我们求 $lnP_总$ 的最大值也是一样
$lnP_总=\sum_{i=1}^ny_ilnh_\theta(x_i)+(1-y_i)ln(1-h_\theta(x_i))$
一般代价函数都会写成求最小值，所以我们在 $lnP_总$ 加个负号。
$J(\theta)=-\sum_{i=1}^ny_ilnh_\theta(x_i)+(1-y_i)ln(1-h_\theta(x_i))$
这就是根据极大似然估计得出的逻辑回归的代价函数。

梯度下降

梯度下降是老办法了
$\theta_j := \theta_j - \alpha\frac{∂}{∂\theta_j}J(\theta)$
还是求偏导
$J(\theta)=-\sum_{i=1}^ny_ilnh_\theta(x_i)+(1-y_i)ln(1-h_\theta(x_i))$

$\frac{\partial J(\theta)}{\partial \theta}=-\sum_{i=1}^n(\frac{y_i}{h_\theta(x_i)}-\frac{1-y_i}{1-h_\theta(x_i)})\frac{\partial h_\theta(x_i)}{\partial \theta}$

在最开始我们已经得到
$h_\theta(x)=\frac{1}{1+e^{-\theta^T x}}$
我们令 $θTx=t\theta^T x=t$

那么 $h(t)=11+e−th(t)=\frac{1}{1+e^{-t}}$
$h^，(t)=\frac{1}{e^t+e^{-t}+2}$
又因为
$h(t)*(1-h(t))=\frac{1}{e^t+e^{-t}+2}$
故
$h^，(t)=h(t)*(1-h(t))$

$\frac{\partial h_\theta(x_i)}{\partial \theta}=h^，(t)*\frac{\partial t}{\partial \theta}=h^，(t)*\frac{\partial \theta^Tx}{\partial \theta}=h(t)*(1-h(t))*x_i=h_\theta(x_i)(1-h_\theta(x_i))*x_i$