一.指数分布族
在前面的笔记四里面,线性回归的模型中,我们有,而在logistic回归的模型里面,有
。事实上,这两个分布都是指数分布族中的两个特殊的模型。所以,接下来会仔细讨论一下指数分布族的一些特点,会证明上面两个分布为什么是指数分布族的特性情况以及怎么用到其他的模型上面去。
如果一类分布能够写成如下的形式,那么这个分布就能够被划归到指数分布族里面。
其中:
η 被称为这个分布的自然参数(natural parameter)或者canonical parameter
T (y) 被称为充分统计量(sufficient statistic) (在我们暂时用到的模型里面,你可以认为他就是 that T (y) = y)
a(η) 被称为log partition function.起到归一化常数的作用,确保这个分布累计起来为1。
当T , a,和b被选中固定之后,也就确定了一个分布的族,且以η为参数。如果我们改变η,我们就得到了不同的分布。
接下来我们看看怎么证明开始的那个伯努利分布和高斯分布是指数分布族里面的。
首先来看看伯努利分布:
伯努利分布可以写为一下的形式:
其中y的取值为0或者1,这个太简单了,就不多解释了。我们的目标就是选择a,b,T,使得变为上面的伯努利分布的形式。下面直接给出推导。
首先伯努利分布可以写成:
看这个式子的形式,把

这篇博客探讨了广义线性模型(GLM),包括指数分布族的概念,如何证明线性回归、logistic回归和softmax回归属于这一族。GLM假设随机变量y的分布属于指数分布族,其自然参数η与输入x通过线性关系联系。线性回归中,η与x的线性组合对应高斯分布;logistic回归的η对应伯努利分布的logistic函数;softmax回归则适用于多分类问题,其η与多项式分布的softmax函数相关联。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



