逻辑回归（LR）

衣介书生

已于 2023-01-05 22:39:59 修改

阅读量354

点赞数

CC 4.0 BY-SA版权

分类专栏： Machine Learning 文章标签：逻辑回归人工智能

于 2019-01-10 10:14:02 首次发布

本文链接：https://blog.youkuaiyun.com/u012071811/article/details/86216489

Machine Learning 专栏收录该内容

8 篇文章

订阅专栏

文章目录

- - 一、推导过程
  - 二、参考

资料领取 | 干货分享 | 欢迎来访 >>>>>> 个人博客主页(戳我)

一、推导过程

假设要解决的问题是一个二分类问题，目标值为 ${0, 1\}$ ，以线性回归为基础，将模型输出映射到 $[0, 1]$ 之间。我们选择这样一个函数：
$\frac{1}{1 + e^{-z}} \\ h_\theta(x) = g(\theta^T x) = \frac{1}{1+e^{-\theta^Tx}}$
其中 $g (z)$ 被称为 sigmoid 函数。为什么要选择 sigmoid 函数其实是可以通过指数分布族加上广义线性模型进行推导分析的。通过 sigmoid 函数我们可以计算单个样本属于正类还是负类的概率：
$p(y=1|x;\theta) = h_\theta(x) \\ p(y=0|x;\theta) = 1 - h_\theta(x)$
我们将上面两个式子合并成一个：
$p(y=x|;\theta) = (h_\theta(x))^y(1-h_\theta(x))^{(1-y)}$
有了上面这个式子，我们就能很容易的得到函数 $h$ 在整个数据集上的似然函数：
$\begin{aligned} l(\theta) =& P(Y|X;\theta) \\ =& \prod_i p(y^{(i)} | x^{(i)} ; \theta) \\ =& \prod_i (h_\theta(x^{(i)}))^{y^{(i)}} (1 - h_\theta(x^{(i)})) ^ {(1-y^{(i)})} \end{aligned}$
转为对数似然函数：
$\begin{aligned} L(\theta) =& logl(\theta) \\ =& \sum_{i=1}^m[y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(l-h_\theta(x^{(i)}))] \end{aligned}$
假设我们用随机梯度下降法更新参数，每次只用一个样例，则上面的对数似然函数退化成：
$L(\theta) = y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(l-h_\theta(x^{(i)}))$
更新参数的公式为：
$\theta_j := \theta_j + \alpha \cdot \frac{\partial}{\partial \theta_j} L(\theta)$
这里的 $\alpha$ 就是学习率。其次注意式子里的 “+”，因为我们要极大化对数似然函数，所以我们需要沿着梯度方向更新参数。接下来我们要做的就是求出 $L(\theta)$ 对各个参数的偏导。
（1）首先我们知道 sigmoid 函数的求导结果为：
${g}'(z)=g(z)(1 - g(z))$
（2）我们可以推导出 $L(\theta)$ 对各个参数的偏导为：
$\frac{\partial}{\partial \theta_j} L(\theta) = x_j(y - h_\theta(x))$