贝叶斯风险
今天介绍贝叶斯风险。最近读Lehmann的Theory of Point Estimation,读的举步维艰,很多地方还要查资料予以补充才能看懂。
Definition 1. 估计θ^\hat{\theta}θ^风险(risk)定义为:
R(θ,θ^)=Eθ[L(θ,θ^)]=∫xL(θ,θ^)f(x;θ)dx
R(\theta, \hat{\theta})=\mathbb{E}_\theta[L(\theta, \hat{\theta})]=\int_xL(\theta, \hat{\theta})f(x;\theta)dx
R(θ,θ^)=Eθ[L(θ,θ^)]=∫xL(θ,θ^)f(x;θ)dx
L(θ,θ^)L(\theta, \hat{\theta})L(θ,θ^)为代价函数,一般选用凸的损失函数,例如平方损失。其中θ^\hat{\theta}θ^是估计器,f(x;θ)f(x;\theta)f(x;θ)是概率密度函数。
当选用平方损失的时候,风险就是均方误差MSEMSEMSE:
R(θ,θ^)=Eθ[(θ−θ^)2]
R(\theta, \hat{\theta})=\mathbb{E}_\theta[(\theta-\hat{\theta})^2]
R(θ,θ^)=Eθ[(θ−θ^)2]
此时,R(θ,θ^)R(\theta,\hat{\theta})R(θ,θ^)是参数θ\thetaθ的函数。如果要以MSEMSEMSE比为目标寻找一个估计,最直观的想法在θ\thetaθ的每一个点上都达到最小值,称为一致风险最优性准则,这必须在某些限制下进行,例如无偏性。
bayes risks是指如下风险:
∫ΘR(θ,θ^)dΛ(θ)
\int_\Theta R(\theta, \hat{\theta})d\Lambda(\theta)
∫ΘR(θ,θ^)dΛ(θ)
其中,Λ\LambdaΛ是参数的先验分布函数,满足∫dΛ(θ)=1\int d\Lambda(\theta)=1∫dΛ(θ)=1。
我理解的贝叶斯风险,是在参数先验分布的平均意义上估计的均方误差。
Theorem 1. θ\thetaθ的先验分布为f(θ)f(\theta)f(θ);给定Θ=θ\Theta = \thetaΘ=θ,XXX的分布是Pθ(X)P_\theta(X)Pθ(X),密度表示为f(x∣θ)f(x|\theta)f(x∣θ)。若(1)存在一个风险有限的估计δ0(x)\delta_0(x)δ0(x);(2)对(几乎)所有的xxx,都存在δΛ(x)\delta_{\Lambda}(x)δΛ(x),使得
∫θL(θ,θ^)f(θ∣x)dθ
\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta
∫θL(θ,θ^)f(θ∣x)dθ
达到极小值,则δΛ(x)\delta_{\Lambda}(x)δΛ(x)是一个贝叶斯估计(使贝叶斯风险最小的估计)。
证明:
∫ΘR(θ,θ^)dΛ(θ)=∫θ∫xL(θ,δ(x))f(x∣θ)dxf(θ)dθ=∫x∫θL(θ,δ(x))f(θ∣x)dθf(x)dx
\begin{aligned}
\int_\Theta R(\theta, \hat{\theta})d\Lambda(\theta)&=\int_\theta\int_xL(\theta, \delta(x))f(x|\theta)dxf(\theta)d\theta\\
&=\int_x\int_\theta L(\theta, \delta(x))f(\theta|x)d\theta f(x)dx
\end{aligned}
∫ΘR(θ,θ^)dΛ(θ)=∫θ∫xL(θ,δ(x))f(x∣θ)dxf(θ)dθ=∫x∫θL(θ,δ(x))f(θ∣x)dθf(x)dx
如果能够使得对∀x\forall x∀x,∫θL(θ,θ^)f(θ∣x)dθ\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta∫θL(θ,θ^)f(θ∣x)dθ都最小,则Ex[∫θL(θ,θ^)f(θ∣x)dθ]\mathbb{E}_x[\int_\theta L(\theta, \hat{\theta})f(\theta|x)d\theta]Ex[∫θL(θ,θ^)f(θ∣x)dθ]也最小,从而贝叶斯风险最小。
这个定理导出了对任意给定xxx,应该选择怎样的估计器。
Example 1. 当L(θ,δ(x))=(θ−δ(x))2L(\theta,\delta(x))=(\theta-\delta(x))^2L(θ,δ(x))=(θ−δ(x))2时,∀x\forall x∀x,最小化贝叶斯风险的贝叶斯估计器是
δ(x)=E[θ∣x]
\delta(x)=E[\theta|x]
δ(x)=E[θ∣x]
这是后验分布均值。其实当我们用MAP(最大后验估计)时,用的是后验众数,而不是后验均值,因此MAP并不是贝叶斯估计,也就没有最优化贝叶斯风险。