引言
指数族分布具有许多优良的性质。许多常见的概率分布都可以归为指数族分布。
1.1 典型形式s参数指数族分布
pη(x)=exp[∑i=1sηiTi(x)−A(η)]h(x) p_{\eta}(x)=exp[\sum_{i=1}^{s}\eta_iT_i(x)-A(\eta)]h(x) pη(x)=exp[i=1∑sηiTi(x)−A(η)]h(x)
其中,A(η)A(\eta)A(η)起到了归一化的作用。h(x)h(x)h(x)是从RnR^nRn到RRR的非负函数参数η\etaη的取值范围称为自然参数空间,定义为{η:A(η)<∞}\{\eta:A(\eta)< \infin\}{η:A(η)<∞}.此时,指数族分布由η\etaη参数化,这种参数化方式的指数族分布称为s-parameter exponential family in canonical form.
A(η)A(\eta)A(η)的定义是:
A(η)=log∫exp[∑i=1sηiTi(x)]h(x)dμ(x)
A(\eta)=log\int exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x)
A(η)=log∫exp[i=1∑sηiTi(x)]h(x)dμ(x)
其中,μ\muμ是Rs\mathbb{R}^sRs上的测度。
这些TTT实际上是统计量,数学上严格地说是从Rn\mathbb{R}^nRn到R\mathbb{R}R上的可测函数。
1.2 另一种参数化
pθ(x)=exp[∑i=1sηi(θ)Ti(x)−B(θ)]h(x) p_\theta(x)=exp[\sum_{i=1}^{s}\eta_i(\theta)T_i(x)-B(\theta)]h(x) pθ(x)=exp[i=1∑sηi(θ)Ti(x)−B(θ)]h(x)
这种用θ\thetaθ参数化,使得η\etaη是θ\thetaθ的函数。这种形式的指数族分布称为s-parameter exponential family.正态分布、伯努利分布等都属于指数族分布。
1.3 联合分布
若X1,⋯ ,Xn∼i.i.d.Pθ(x)X_1, \cdots, X_n \sim i.i.d. P_\theta(x)X1,⋯,Xn∼i.i.d.Pθ(x),则联合密度是
pθ(X1,⋯ ,Xn)=exp(∑i=1sηi(θ)(∑j=1nTi(xj))−nB(θ))∏j=1nh(xj)
p_\theta(X_1, \cdots, X_n)=exp(\sum_{i=1}^{s}\eta_i(\theta)(\sum_{j=1}^{n}T_i(x_j))-nB(\theta))\prod_{j=1}^{n}h(x_j)
pθ(X1,⋯,Xn)=exp(i=1∑sηi(θ)(j=1∑nTi(xj))−nB(θ))j=1∏nh(xj)
仍然是一个s-parameter的指数族分布。
2.性质
指数族分布具有许多良好的性质。对于典型形式(canonical form)的指数族分布来说,可以联系统计量T1,⋯ ,TsT_1, \cdots, T_sT1,⋯,Ts的矩和累积量与A(η)A(\eta)A(η)的导数之间的关系。
2.1 可微性
典型形式指数族分布有一个重要定理:令Ξf\Xi_fΞf是η∈Rs\eta \in \mathbb{R}^sη∈Rs的一个集合,使得
∫∣f(x)∣exp[∑i=1sηiTi(x)]h(x)dμ(x)<∞
\int|f(x)|exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x)<\infin
∫∣f(x)∣exp[i=1∑sηiTi(x)]h(x)dμ(x)<∞
则
g(η)=∫f(x)exp[∑i=1sηiTi(x)]h(x)dμ(x)
g(\eta)=\int f(x)exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x)
g(η)=∫f(x)exp[i=1∑sηiTi(x)]h(x)dμ(x)
是连续的,并且在Ξf\Xi_fΞf的内点存在无穷阶连续偏导。进一步的,微分号可以和积分互换位置。
利用上面的定理,可以推导下面的结果:f=1f=1f=1时,观察到g(η)=eA(η)=∫exp[∑i=1sηiTi(x)]h(x)dμ(x)g(\eta)=e^{A(\eta)}=\int exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x)g(η)=eA(η)=∫exp[∑i=1sηiTi(x)]h(x)dμ(x).
对第二个等式的两侧同时对典型形式的指数族分布的参数ηj\eta_jηj同时求导,得到
eA(η)∂A(η)∂ηj=∫Tj(x)exp[∑i=1sηiTi(x)]h(x)dμ(x)
e^{A(\eta)}\frac{\partial A(\eta)}{\partial \eta_j}=\int T_j(x)exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x)
eA(η)∂ηj∂A(η)=∫Tj(x)exp[i=1∑sηiTi(x)]h(x)dμ(x)
左右两边同时除以eA(η)e^{A(\eta)}eA(η),就得到
∂A(η)∂ηj=∫Tj(x)pη(x)dμ(x)=Eη[Tj(x)]
\frac{\partial A(\eta)}{\partial \eta_j}=\int T_j(x)p_\eta(x)d\mu(x)\\
=\mathbb{E}_\eta[T_j(x)]
∂ηj∂A(η)=∫Tj(x)pη(x)dμ(x)=Eη[Tj(x)]
因此,发现统计量TjT_jTj的一阶矩就是A(η)A(\eta)A(η)对ηj\eta_jηj的导数。
2.2 控制收敛定理
上面谈到,对于g(η)=A(η)g(\eta)=A(\eta)g(η)=A(η)进行微分时,可以把微分提到积分号里面去,这并不是一个显然的性质。这一小节我们来说明这件事情。
控制收敛定理:令fn,n≥1f_n,n\ge1fn,n≥1是一个函数列,且对 ∀n≥1\forall n\ge1∀n≥1,有∣fn∣<g(a.e.μ)|f_n|<g(a.e. \mu)∣fn∣<g(a.e.μ)。若∫gdμ<∞\int gd\mu<\infin∫gdμ<∞,且对于a.e.xa.e. xa.e.x在测度μ\muμ下有limn→∞fn(x)=f(x)\lim_{n\rightarrow\infin}f_n(x)=f(x)limn→∞fn(x)=f(x),则当n→∞n \rightarrow \infinn→∞时有
∫fndμ→∫fdμ
\int f_n d\mu \rightarrow \int fd\mu
∫fndμ→∫fdμ
下面要说明对于g(η)g(\eta)g(η)来说,微分可以提到积分号里面。为简便,设s=1s=1s=1,则
g(η)=eA(η)=∫eηT(x)h(x)dμ(x)
g(\eta)=e^{A(\eta)}=\int e^{\eta T(x)}h(x)d\mu(x)
g(η)=eA(η)=∫eηT(x)h(x)dμ(x)
设η∈[−2ϵ,2ϵ]\eta\in[-2\epsilon,2\epsilon]η∈[−2ϵ,2ϵ]时积分有限,考虑g(η)g(\eta)g(η)在η=0\eta=0η=0处的导数,有
limn→∞eϵ/n−eA(0)ϵ/n=limn→∞∫eϵT(x)/n−1ϵ/ndμ(x)=limn→∞∫fn(x)dμ(x)
\begin{aligned}
\lim_{n\rightarrow \infin} \frac{e^{\epsilon/n}-e^{A(0)}}{\epsilon/n}&= \lim_{n\rightarrow \infin} \int \frac{e^{\epsilon T(x)/n}-1}{\epsilon/n}d\mu(x)\\
&=\lim_{n\rightarrow \infin}\int f_n(x)d\mu(x)
\end{aligned}
n→∞limϵ/neϵ/n−eA(0)=n→∞lim∫ϵ/neϵT(x)/n−1dμ(x)=n→∞lim∫fn(x)dμ(x)
进一步的,由下面两个不等式,∀t∈R\forall t \in R∀t∈R:
∣et−1∣≤∣t∣e∣t∣∣t∣≤e∣t∣
|e^t-1|\le |t|e^{|t|} \\
|t|\le e^{|t|}
∣et−1∣≤∣t∣e∣t∣∣t∣≤e∣t∣
∣eϵT(x)/n−1ϵ/n∣≤∣ϵT(x)∣ϵe∣ϵT(x)∣≤1ϵ(e2ϵT(x)−e−2ϵT(x)) |\frac{e^{\epsilon T(x)/n}-1}{\epsilon/n}| \le \frac{|\epsilon T(x)|}{\epsilon}e^{|\epsilon T(x)|} \le \frac{1}{\epsilon}(e^{2\epsilon T(x)}-e^{-2\epsilon T(x)})\\ ∣ϵ/neϵT(x)/n−1∣≤ϵ∣ϵT(x)∣e∣ϵT(x)∣≤ϵ1(e2ϵT(x)−e−2ϵT(x))
这里面不停的放缩,以及用小技巧去掉了绝对值。
由此,等式左侧乘以h(x)h(x)h(x)就是∣fn(x)∣|f_n(x)|∣fn(x)∣。注意h(x)h(x)h(x)是个非负的量,这是指数族分布定义中阐述的。而等式左侧也乘以h(x)h(x)h(x),定义为g(x)g(x)g(x)。容易发现,等式右侧是积分有限的,因为
∫(e2ϵT(x)−e−2ϵT(x))h(x)dμ(x)=eA(2ϵ)+eA(−2ϵ)
\int (e^{2\epsilon T(x)}-e^{-2\epsilon T(x)})h(x)d\mu(x)=e^{A(2\epsilon)}+e^{A(-2\epsilon)}
∫(e2ϵT(x)−e−2ϵT(x))h(x)dμ(x)=eA(2ϵ)+eA(−2ϵ)
而指数族分布定义时已经表明A(η)<∞A(\eta)<\infinA(η)<∞,因此,积分有限。故等式满足控制收敛定理,左侧可以表达为函数列的积分的极限等于函数列极限的积分。因此,导数作为作为一种极限,就满足了交换的条件。
个人理解,可能有误,请大家指正。