逻辑斯蒂回归以及它的梯度下降法

原创

已于 2023-05-05 14:37:35 修改 · 4.4k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #逻辑回归

于 2020-11-06 16:37:52 首次发布

本文介绍了逻辑斯蒂回归模型，包括二项和多项逻辑斯蒂回归，探讨了模型优缺点，以及在分类问题中的应用。通过极大似然估计法求解模型参数，并详细阐述了梯度下降法的算法思想和推导过程，同时对比了不同类别设置下的导数形式。

文章目录

前言
- 逻辑斯蒂分布
模型
- 二项逻辑斯蒂回归模型
- 多项逻辑斯蒂回归模型
策略
算法
注意

前言

预测任务分为：

回归问题：输入、输出变量为连续变量。
分类问题：输出变量为有限个离散变量。
标注问题：输入、输出变量为变量序列。

前面提到用感知机进行分类时，得到了是离散变量。但是实际上是因为 $s i g n$ 函数，如果用这个函数，不就是线性回归了嘛！
逻辑斯蒂回归(logistic distribution)模型适用于多类分类问题，它是对数线性模型，属于判别模型。它源自于逻辑斯蒂分布。
优点：计算代价不高，易于理解和实现。
缺点：容易欠拟合，分类精度可能不高。

逻辑斯蒂分布

首先我们需要知道什么是 $s i g m o i d$ 函数？
$s i g m o i d$ 是一个在生物学中常见的S型生长曲线， $s i g m o i d$ 函数常被用作神经网络的激活函数。
$\theta(x)=\frac{1}{1+e^{-x}}$
在这里插入图片描述
这个曲线以点 $(u,\frac{1}{2})$ 为中心对称，而且在中心附近增长速度较快，在两端增长速度较慢。取值范围为 $(0, 1)$ ，它可以将一个实数映射到 $(0, 1)$ 的区间，可以用来做二分类。逻辑斯蒂函数，也就是逻辑斯蒂分布的分布函数与它一样。密度函数是一个凸函数。
在这里插入图片描述

个人认为sigmoid函数和logisitic函数差别不大
参考：https://baike.baidu.com/item/Sigmoid%E5%87%BD%E6%95%B0/7981407
https://baike.baidu.com/item/%E9%80%BB%E8%BE%91%E6%96%AF%E8%B0%9B%E5%88%86%E5%B8%83/19127203#reference-[1]-19510388-wrap

模型

请添加图片描述
之前的是在 $w^{T}x+b$ 外面加上 $s i g n$ 函数，现在直接将 $s i g n$ 函数替换为 $s i g m o i d$ 函数，上图为 $\theta(·)$ 。两者的区别在于损失函数的计算。

二项逻辑斯蒂回归模型

顾名思义，解决二分类问题。
在这里插入图片描述
当然有时候为了方便计算，我们把
把 $b$ 放入 $w$ ， $x$ 多一个 $1$ 还是很好理解的，矩阵展开就行了。公式6.5分子分母除以分子，就变得和 $s i g m o i d$ 函数一致。公式6.6直接是因为sigmoid的对称性，由公式6.6推来。

多项逻辑斯蒂回归模型

用于多分类问题：
在这里插入图片描述

策略

在逻辑斯蒂回归模型中，单看等式左边 $P (Y = y ∣ x)$ 很明显是一个条件概率。等式右边直接用 $\theta(·)$ 代替，明显是个关于 $w$ 的公式，因为实际问题中 $x$ 是已知的。
如果 $θ$ 是已知确定的， $x$ 是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本点 $x$ ，其出现概率是多少。
如果 $x$ 是已知确定的， $θ$ 是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数，出现 $x$ 这个样本点的概率是多少。似然问题：关于模型的参数 $θ$ 是未知的。所以逻辑斯蒂回归求解模型参数是一个似然问题。