1.逻辑回归是广义线性回归(GLM)的一种特殊形式
2.GLM有三个要素构成:响应变量服从指数族分布,系统分量是预测变量x的线性模型,通过连接函数联系前两者
2.逻辑回归建立在0-1分布上,而0-1分布是指数族分布一员
3.由最大熵原理可以推导出指数族分布
4.逻辑回归假设函数值域是[0,1]能代表概率是因为指数族分布的对数配分函数的一阶导(是充分统计量的期望)刚好与0-1分布均值为h的事实相吻合
5.最后,连接函数选择典则连接,这样可以使得GLM有完全统一的MLE正则方程
6.综上,推导出逻辑回归的假设函数是siomoid函数,这是基于GLM模型推导的结果,不是原因

逻辑回归是机器学习用于二分类任务的重要算法,也是金融风控评分卡模型的假设函数。小编刚学习的时候就很多疑问:为什么一定是sigmoid函数而不能是均方误差呢,代价函数为什么是交叉熵呢。
一开始我得到的答案是分类问题要限定在0~1概率范围,sigmoid的性质很好等等,这些答案都是错的!!!
要回答【逻辑回归为什么要使用sigmoid函数】这个问题,得了解【指数族分布】和【广义线性回归】
1.指数族分布

满足已知事实的最大熵问题

机器学习经常需要做的事情是:给定一组训练数据 D,我们希望通过 D 得到我们研究空间的概率分布。这样,给出一个测试数据,我们就可以找出条件概率中概率最大的那个点,将其作为答案输出。
直接学习概率分布是不现实的。直接学习概率分布最简单的方法,就是把空间分成很多很多小的单元,然后统计样本落在每个单元的频率,作为每个单元的概率分布。但是这种方法会面临着数据不足、有噪音、存储能力受限等问题。
在大多数情况下,我们都会人为指定某种概率分布的形式(例如指定为高斯分布或伯努利分布等)。对概率函数的学习就转化为了函数参数的学习,减小了学习的难度;我们也只需要存储我们感兴趣的统计量(例如对于高斯分布,我们只需要存储均值和方差;对于伯努利分布,我们只需要存储取正类的概率),减小了对存储空间的需求。当然,由于人为限定了概率分布形式,我们就需要根据不同的问题选择不同的分布,就像对不同问题选择不同的机器学习模型一样。
为此,我们抽象出概率模型P,它满足以下性质: