以前博客写过逻辑回归时直接抛出sigmoid函数,然后说它的好处和特性。其实长久以来想知道这玩意是怎么想出来的。最大熵模型是一个比较普遍的机器学习模型,Logistic回归是它在二分类情形下的特例,也就是说sigmoid激活函数就是由最大熵模型推出来的。。
条件熵表示已知随机变量X的情况下,随机变量Y的条件概率分布的熵对X的数学期望:
表示
的联合经验分布,
表示关于
的特征函数。
定义在y关于x的后验分布的熵(条件熵)为:
最大化上式,得到优化目标:
使用拉格朗日乘子法转为无约束优化:
对于二分类问题,取特征函数:
因此得到与Logistic回归一样的表达式:
参考:《统计学习方法》