在谈线性回归与逻辑回归前,我们先聊聊什么是回归吧?
我们可以认为数据样本的所有数据都是具有一定关系的,其符合一定的分布规律。或者说我们可以将数据想象成各种曲线。而回归的作用就是确定这些曲线。所以我们可以根据这些确定的曲线,去预测更多数据的分布趋势。
所以我们常说:回归就是一种拟合数据的方法。
在回归中又分为线性回归和逻辑回归:
- 线性回归是预测输入到输出的线性变换,其很难拟合非线性的数据
- 线性回归预测的结果值的范围在(-∞,+∞),而很多时候我们需要我们预测的结果是一个定性值,并非一个具体值。比如处理分类问题时,我们常将图片的预测值定义在(0,1)之间。

-
在线性回归的基础上引入逻辑回归是为了处理分类问题。其中最为经典的就是二分类问题。
所有分类的本质都在于:在空间内找到一个决策边界来完成分类。线性回归擅长于预测连续数据,但是它并不适合预测的原因在于其预测值的定义域。
如果一个值在(-∞,+∞)之间,我们如何去判断其属于那个类呢?我们如何将其去解析为一个概率值呢?
显然我们需要一个决策函数,可以将(-∞,+∞)映射到(0,1),这样最后得出来的预测值就更像一个分类的概率了吧。当其为 0.1时,表示它小概率属于正样本;当其为0.8时,表示它大概率数据正样本。 -
逻辑回归的决策函数 ?
逻辑回归的决策函数有很多,但是最经典的当属:
①Sigmoid函数;
将一个单一数值映射到0-1之间。
例子:
②Softmax函数;
softmax 的输出表征了不同类别之间的相对概率,且相对概率之和为1。所以其本质就是将一个K 维的任意实数向量压缩(映射)成另一个K。
softmax函数是sigmoid函数的多维形式,参数不是单个变量而是多维向量
其中sigmoid函数主要用于进行二分类,softmax主要解决多分类任务。附上我即将要写的一篇文章 决策函数 来详细介绍决策函数及分类的由来和分类原理(贝叶斯决策理论)
事实上我们通过使用决策函数将线性回归的结果压缩到0到1之间。也就是说本来拟合的值现在映射在0-1之间,那我们就可以取0-1之间的某个值作为阈值来进行二分类。
-
线性回归假设因变量 y 服从 高斯分布(正态分布)。
因为在大多数情况下,我们无法预知未知事件的概率分布,所以我们只能选择正态分布。因为它是所有概率分布中最可能的表现形式。逻辑回归假设因变量 y 服从伯努利分布
因为逻辑回归的最终结果是为二点分布或多点分布,为0 或 1。
这里我们给大家提供一个例子,大家可以去打印出逻辑回归的各个过程。
示例:病人肿瘤预测