1. 指数分布族
首先,我们先来定义指数分布族(exponential family),如果一类分布可以写成如下的形式,那么它就是属于指数分布族的:

它与指数分布族的对应关系为:

上面我们展示了伯努利和高斯分布,实际上,还有multinomial(后面将会谈到),泊松分布,gamma和指数分布,beta和狄里克雷分布等等都是属于指数分布族的。怎么样,这个广义线性模型还是有两下子的的,原来我们前面讨论的分类都可以统一为指数分布族的形式。但这还不够,我们怎么从指数分布族中推出我们想要的东西呢?下面我们就来看一看怎样通过构造广义线性模型来解决实际问题。
2. 构造GLMs
现在我们来把之前的分类问题扩展一下。生活中的很多事物肯定不止一个种类,我们来考虑多类别的分类问题,讨论一下如何利用GLMs来解决。
首先,和之前一样,我们构造模型都是有一定的条件的。我们先来作三个假设:
1. y|x;θ∼ExpoentialFamily(η)y|x;θ∼ExpoentialFamily(η)。
如果我们的问题需要满足这三个假设,那么我们就可以通过构造广义线性模型来解决。线性回归和逻辑回归都是满足这三个假设的,就可以使用这个模型。
2.1 普通的最小平方(Ordinary Least Squares)问题
在线性回归的最小平方问题中,目标变量y(在GLM的术语中也称作响应变量(response variable))是连续的,给定x,y的条件分布符合我们刚刚讨论过的高斯分布,均值为μμ。所以,我们可以得到线性回归的假设函数就是:
这样,我们就从广义线性模型的角度得到了线性回归的解决方案。
2.2 逻辑回归
在二元分类问题中,给定x,y服从我们刚才讨论的伯努利分布,均值为ϕϕ,被称为canonical link function。
2.3 Softmax Regression
好了,铺垫了这么久,我们终于可以考虑我们的多类别分类的问题了,我们首先用multinomial distribution来给它建立模型。假设我们的类别y∈{1,2,…,k}y∈{1,2,…,k}值,就大功告成了!