2.4 The Exponential Family
到目前为止,书中讲过的除了高斯混合分布以外的大部分概率分布都是属于一类更广义的分布--Exponential Family。这一节就是阐述这类分布的一些共同性质。
给定参数η,如果x的分布符合如下形式,则称x服从指数族分布:
η在此称为natural parameter。g(η)是为了确保概率密度的归一化。接着作者又证明了伯努利分布,二项分布,高斯分布都可以推导为上述形式,即它们都是指数族分布的一员。
2.4.1 Maximum likelihood and sufficient statistics
既然提出了一种更为广义的分布,那么在利用它进行建模的时候,自然而然的就要想到一个重要的问题,即如何来估计参数η。
从理论上进行推导,通过书上(2.195)的式子两边求关于η的梯度,再经过一些简单推导可以得到:
书中写到,从推导过程我们也可以看出来,如果对η球二阶导数,则在积分号内部会出现u(x)*u(x),即最后可以得到E(u²(x)),这样,u(x)的方差便可以用η表示了。表示u(x)的方差有什么用呢?
接下来,在实际建模过程中,我们假设所有的样本服从指数族分布,且是独立同分布的。我们利用使似然函数的log形式的梯度为0,进而得到了η的最大似然估计:
注意当N趋于无穷大的时候,等式右边便是u(x)的期望。
&