逻辑回归

本文探讨了最大熵原理如何赋予Logistic回归一个坚实的数学基础。通过最大熵原理,我们能够理解为何在某些假设下,如伯努利分布及线性模型的条件下,Sigmoid函数成为最优选择。此外,文章还深入介绍了指数族模型如何应用于多分类问题。

sigmoid,或者说exponential family具有的最佳性质,即maximum entropy的性质。
虽然不清楚历史上孰先孰后,但这并不妨碍maximum entropy给了logistic regression一个很好的数学解释。

为什么maximum entropy好呢?entropy翻译过来就是熵,所以maximum entropy也就是最大熵。熵原本是information theory中的概念,用在概率分布上可以表示这个分布中所包含的不确定度,熵越大不确定度越大。所以大家可以想象到,均匀分布熵最大,因为基本新数据是任何值的概率都均等。

而我们现在关心的是,给定某些假设之后,熵最大的分布。也就是说这个分布应该在满足我假设的前提下越均匀越好。比如大家熟知的正态分布,正是假设已知mean和variance后熵最大的分布。

回过来看logistic regression,这里假设了什么呢?首先,我们在建模预测 Y|X,并认为 Y|X 服从bernoulli distribution,所以我们只需要知道 P(Y|X);其次我们需要一个线性模型,所以 P(Y|X) = f(wx)。接下来我们就只需要知道 f 是什么就行了。而我们可以通过最大熵原则推出的这个 f,就是sigmoid。





考虑任意多类(不仅是两类)的分类问题。

Exponential model 的形式是这样的:
假设第i个特征对第k类的贡献是w_{ki},则数据点(x_1, \ldots, x_n)属于第k类的概率正比于\exp(w_{k1}x_1 + \ldots + w_{kn}x_n)。(省略bias)

因为一个数据点属于各类的概率之和为1,所以可以得到
P(y = k) = \frac{\exp(\sum_{i=1}^n w_{ki}x_i)}{\sum_{k'} \exp(\sum_{i=1}^n w_{k'i}x_i)}

现在回到两类(0、1)的情况,此时分母上只有两项:
P(y = 1) = \frac{\exp(\sum_{i=1}^n w_{1i}x_i)}{\exp(\sum_{i=1}^n w_{1i}x_i) + \exp(\sum_{i=1}^n w_{0i}x_i)}

分子、分母同除以分子,并设w_i = w_{1i} - w_{0i},则有
P(y = 1) = \frac{1}{1 + \exp(-\sum_{i=1}^n w_i x_i)}

喏,这就是logistic函数。其中参数w_i表示第i个特征对1类的贡献比对0类的贡献多多少。






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值