本文99.99%都是取自:https://blog.youkuaiyun.com/wzgbm/article/details/51721143
文章目录
一. 频率学派与贝叶斯学派的区别
1) 统计推断基础
在统计推断中有三种信息:先验信息,样本信息,总体信息.贝叶斯学派的基本观点是:后验分布中集中了先验分布和样本两部分信息.因此所有关于参数θ的推断(估计)都应该从后验分布出发.应理解为贝叶斯公式.
-
总体信息:总体信息即总体分布或总体所属分布族提供的信息.总体信息是很重要的信息,只要有总体信息,就要想方设法在统计推断中使用,为了获取此种信息往往耗资巨大.
-
样本信息:样本信息即抽取样本所得观测值提供的信息.没有样本就没有统计学可言.
-
先验信息:先验信息即是抽样(试验)之前有关统计问题的一些信息.一般说来,先验信息来源于经验和历史资料(比如我们总能识别自己亲朋好友的声音,从而给出不同的声音对应的人,这样对判断的概率还是很有影响的).先验信息在日常生活和工作中是很重要的.
在查找“极大似然估计”有关知识点的时候,经常会碰到“频率学派”和“贝叶斯学派”这两个虽故事深厚,但是对于我们实际使用参数估计法并没有什么暖用的词,然而随着这两个词的曝光增多,它犹如一个没有解决的问题一样,潜伏在脑海深处,于是就在网上搜了一些结果,加工处理总结于此处。
豆瓣上的回答[2]:
这个区别说大也大,说小也小。往大里说,世界观就不同,频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值;贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布,个人认为这个和量子力学某些观点不谋而合。
往小处说,频率派最常关心的是似然函数,而贝叶斯派最常关心的是后验分布。我们会发现,后验分布其实就是似然函数乘以先验分布再normalize一下使其积分到1。因此两者的很多方法都是相通的。贝叶斯派因为所有的参数都是随机变量,都有分布,因此可以使用一些基于采样的方法(如MCMC)使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布,因此更加客观,也更加无偏,在一些保守的领域(比如制药业、法律)比贝叶斯方法更受到信任。
频率学派认为事物本身冥冥之中是服从一个分布的(至于是什么,只有上帝知道),这个分布的参数是固定的,因此,反过来想,上帝用这个分布制造了一些数据给了频率学派,频率学派的出发点是上帝在制造这些数据的时候那个参数是唯一固定的,我们要做的就是考虑哪个值最有可能是那个参数值呢,于是就有了“最大似然”和“置信区间”这样的概念,从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数。然而贝叶斯学派认为,我们并没有上帝视角,怎么能够确定这些数据是用哪个固定参数值造出来的,因此他们关心的是参数空间的每一个值,给这些值一些他们自己认为合理的假设值(先验分布),然后在去做实验(证据),不断地调整自己的假设,从而得到最后结果(后验分布),但是又反过来想,既然我们不是上帝,那么这个先验假设又怎么能做出来了呢。
频率学派太过于看中事实(太现实了),以至于容易被现实欺骗,比如掷硬币,掷了无数次都是正面,从频率学派的角度就会认为正面出现的概率为1;贝叶斯学派太过于幻想,以至于想象中的很多东西很难实现,例如很难准确判断参数的先验分布。总之,你我都不是上帝,所以也就没有绝对的孰对孰错。
二. 频率学派的参数估计
极大似然估计(Maximum Likelihood Estimate,MLE)经过上述分析我们知道它是频率学派的思想,也就是为了求自认为的上帝的固定参数的,而尽量使这个参数接近真实。用我个人的话说就是它直接使用样本的统计结果代替了总体的概率
1) 离散随机变量的似然函数:
若总体
X
X
X属离散型,其分布律
P
{
X
=
x
}
=
p
(
x
∣
θ
)
,
θ
∈
Θ
P\{X=x\}=p(x|\theta),\theta\in\Theta
P{X=x}=p(x∣θ),θ∈Θ,的形式为已知,
θ
\theta
θ为待估参数,
Θ
\Theta
Θ是
θ
\theta
θ可能的取值范围,设
X
1
,
X
2
,
⋯
 
,
X
n
X_{1},X_{2},\cdots ,X_{n}
X1,X2,⋯,Xn是来自
X
X
X的样本,则
X
1
,
X
2
,
⋯
 
,
X
n
X_{1},X_{2},\cdots ,X_{n}
X1,X2,⋯,Xn的联合概率分布为:
∏
i
=
1
n
p
(
X
i
∣
θ
)
\prod_{i=1}^np(X_i|\theta)
i=1∏np(Xi∣θ)
设
x
1
,
x
2
,
⋯
 
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn是相应的样本值,易知样本
X
1
,
X
2
,
⋯
 
,
X
n
X_{1},X_{2},\cdots ,X_{n}
X1,X2,⋯,Xn取到观察值
x
1
,
x
2
,
⋯
 
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn的概率,亦即事件
{
X
1
=
x
1
,
X
2
=
x
2
,
⋯
 
,
X
n
=
x
n
}
\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}
{X1=x1,X2=x2,⋯,Xn=xn}发生的概率为(它表现为
θ
\theta
θ为变量的表达式,此时
X
i
X_i
Xi已经是样本了。此处的
L
(
θ
)
L(\theta)
L(θ)表示Likelihood,就是似然的意思)
L
(
θ
)
=
L
(
x
1
,
x
2
,
⋯
 
,
x
n
∣
θ
)
=
∏
i
=
1
n
p
(
x
i
∣
θ
)
L(\theta)=L(x_1,x_2,\cdots,x_n|\theta)=\prod_{i=1}^{n}p(x_i|\theta)
L(θ)=L(x1,x2,⋯,xn∣θ)=i=1∏np(xi∣θ)
这一概率随
θ
\theta
θ的取值而变化,它是
θ
\theta
θ的函数,
L
(
θ
)
L(\theta)
L(θ)称为样本的似然函数(注意:这里
x
1
,
x
2
,
⋯
 
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn都是已知的样本值,它们都是常数)在θ可取的范围内挑选使似然函数
L
(
θ
)
=
L
(
x
1
,
x
2
,
⋯
 
,
x
n
∣
θ
)
L(\theta)=L(x_1,x_2,\cdots,x_n|\theta)
L(θ)=L(x1,x2,⋯,xn∣θ)达到最大的参数值
θ
^
\hat{\theta}
θ^,作为参数
θ
\theta
θ的估计值.即取
θ
^
\hat{\theta}
θ^使:
L
(
x
1
,
x
2
,
⋯
 
,
x
n
∣
θ
^
)
=
arg
max
θ
∈
Θ
L
(
x
1
,
x
2
,
⋯
 
,
x
n
∣
θ
)
L(x_1,x_2,\cdots,x_n|\hat\theta)=\mathop{\arg\max}\limits_{\theta\in\Theta }L(x_1,x_2,\cdots,x_n|\theta)
L(x1,x2,⋯,xn∣θ^)=θ∈ΘargmaxL(x1,x2,⋯,xn∣θ)
2) 连续随机变量的似然函数:
若总体
X
X
X属连续型,其概率密度
f
(
x
∣
θ
)
,
θ
∈
Θ
f(x|\theta),\theta\in\Theta
f(x∣θ),θ∈Θ的形式为已知,其他同上,其联合概率密度为
∏
i
=
1
n
f
(
x
i
∣
θ
)
\prod_{i=1}^nf(x_i|\theta)
i=1∏nf(xi∣θ)
设
x
1
,
x
2
,
⋯
 
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn相应的样本值,则随机点
X
1
,
X
2
,
⋯
 
,
X
n
X_{1},X_{2},\cdots ,X_{n}
X1,X2,⋯,Xn落在点
x
1
,
x
2
,
⋯
 
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn的邻域(边长分别为
d
x
1
,
d
x
2
,
⋯
 
,
d
x
n
d_{x_1},d_{x_2},\cdots,d_{x_n}
dx1,dx2,⋯,dxn的n维立方体)内的概率近似为
∏
i
=
1
n
f
(
x
∣
θ
)
d
x
i
\prod_{i=1}^nf(x|\theta)d_{x_i}
i=1∏nf(x∣θ)dxi
其值随的取值而变化,与离散的情况一样,取 θ \theta θ的估计值 θ ^ \hat\theta θ^使概率取到最大值,但因子 ∏ i = 1 n d x i \prod_{i=1}^nd_{x_i} ∏i=1ndxi不随 θ \theta θ而变,故只需考虑函数 L ( θ ) = L ( x 1 , x 2 , ⋯   , x n ∣ θ ^ ) = ∏ i = 1 n d x i L(\theta)=L(x_1,x_2,\cdots ,x_n| \widehat{\theta})=\prod_{i=1}^n d{x_i} L(θ)=L(x1,x2,⋯,xn∣θ )=i=1∏ndxi的最大值,这里 L ( θ ) L(\theta) L(θ)就是样本的似然函数。
3) 最大似然估计一般求解过程:
- 写出似然函数
- 对似然函数取对数,并整理
- 求导数
- 解似然方程
三. 贝叶斯学派的参数估计
1) Bayesian统计的三个基本假设
假设1:任一未知量θ都可看作随机变量,可用一个概率分布去描述,这个分布称为先验分布;即样本分布中的参数不是常数,而是随机变量.这个随机变量的分布可从先验信息中归纳出来,这个分布称为先验分布,其密度函数用π(θ)表示;
假设2: 任一未知量θ先验分布是已知的;
假设3: 样本分布是样本在给定θ时的条件分布.
2) 最大后验估计
首先说什么是后验概率。后验概率是一种条件概率,普通的条件概率两个事件随意取,后验概率
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)一般由结果Y求原因X的过程,比如由样本观测值求总体分布的参数:
P
(
θ
∣
x
)
P(\theta|x)
P(θ∣x).
最大后验估计(Maximum A Posteriori estimation,MAP).最大后验估计是根据经验数据获得对难以观察的量的点估计.与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中(从第一节分析中我们可以得知这个先验分布可以理解为人们对事物的认识,也就是观察者的知识能力,先验分布的参数我们称为超参数hyperparameter),故最大后验估计可以看做规则化的最大似然估计,极大似然估计可以看作是先验概率为均匀分布时的MAP估计。
假设 x x x为独立同分布的采样, θ \theta θ为模型参数, p p p为我们所使用的模型。那么最大似然估计可以表示为: θ ^ M L E = arg max θ p ( x ∣ θ ) \hat\theta_{MLE}=\mathop{ \arg\max} \limits_\theta\ p(x|\theta) θ^MLE=θargmax p(x∣θ)
假设
θ
\theta
θ的先验分布为
g
(
θ
)
g(\theta)
g(θ)。通过贝叶斯理论,对于
θ
\theta
θ的后验概率分布如下式所示(注释:这里的
θ
′
\theta'
θ′表示的是积分变量,目的是和
θ
\theta
θ作区分,对于
θ
∈
Θ
\theta\in\Theta
θ∈Θ积分)
p
(
θ
∣
x
)
=
p
(
θ
,
x
)
P
(
x
)
=
p
(
x
∣
θ
)
g
(
θ
)
∫
θ
∈
Θ
p
(
x
∣
θ
′
)
g
(
θ
′
)
d
θ
′
p(\theta|x) =\frac{p(\theta,x)}{P(x)}= \frac{p(x|\theta)g(\theta)}{\int_{\theta\in\Theta}p(x|\theta^{'})g(\theta^{'})d\theta^{'}}
p(θ∣x)=P(x)p(θ,x)=∫θ∈Θp(x∣θ′)g(θ′)dθ′p(x∣θ)g(θ)
分母
x
x
x为的边缘概率与
θ
\theta
θ无关,因此最大后验等价于使分子最大,故目标函数为:
θ
^
M
A
P
(
x
)
=
arg
max
θ
p
(
x
∣
θ
)
g
(
θ
)
\hat{\theta}_{MAP}(x) = \mathop{\arg\max}\limits_{\theta}\ p(x|\theta)g(\theta)
θ^MAP(x)=θargmax p(x∣θ)g(θ)
3) Bayesian估计
1. Bayesian rule
离散型:
P
(
B
i
∣
A
)
=
P
(
B
i
A
)
P
(
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
n
P
(
A
∣
B
j
)
P
(
B
j
)
P({B_i}|A) = \frac{{P({B_i}A)}}{{P(A)}} = \frac{{P(A|{B_i})P({B_i})}}{{\sum\limits_{j = 1}^n {P(A|{B_j})P({B_j})} }}
P(Bi∣A)=P(A)P(BiA)=j=1∑nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
连续型:
π
(
θ
∣
x
)
=
π
(
x
,
θ
)
π
(
x
)
=
p
(
x
∣
θ
)
π
(
θ
)
∫
θ
p
(
x
∣
θ
)
π
(
θ
)
d
θ
\pi (\theta |x) = \frac{{\pi (x,\theta )}}{{\pi (x)}} = \frac{{p(x|\theta )\pi (\theta )}}{{\int_\theta {p(x|\theta )\pi (\theta )d\theta } }}
π(θ∣x)=π(x)π(x,θ)=∫θp(x∣θ)π(θ)dθp(x∣θ)π(θ)
2. 先验分布的选取
先验分布有不同的类型,比较重要的两个概念是a.无信息先验和b.共轭先验分布.
a. 同等无知
在没有先验信息的情况下,对未知的参数θ的所有可能取值同等对待。
b.共轭先验分布
定义:设
Ψ
\Psi
Ψ表示由
θ
\theta
θ的先验分布
π
(
θ
)
\pi(\theta)
π(θ)构成的分布族.如果对任取的
π
∈
Ψ
\pi\in\Psi
π∈Ψ及其样本值
x
x
x,后验分布仍属于
Ψ
\Psi
Ψ,那么称
Ψ
\Psi
Ψ是一个共轭先验分布族(conjugate prior distribution family).而此时
π
(
θ
)
\pi(\theta)
π(θ)先验分布称为
θ
\theta
θ的共轭先验分布.
可参考
https://blog.youkuaiyun.com/hsj1213522415/article/details/57074899
3. 估计方法
如何从后验分布出发来构造参数估计?有两种不同的a. 直观统计法,b. 度量法,但往往是殊途同归的思路可循.
a. 直观统计法
由后验分布π(θ|x)估计θ有三种常见的方法:
1.使用后验分布的众数作为θ的点估计的众数后验估计;
2.使用后验分布的中位数作为θ的点估计的后验中位数估计;
3.使用后验分布的期望作为θ的点估计的后验期望估计。使用最多的后验期望估计,它也被简称为贝叶斯估计。
b. 度量法
第二种思路就是提出适当的准则,用一定的量来度量估计的优劣,并在可能的场合下寻找最优估计.这里介绍在”统计决策理论”的框架内用于度量估计优劣的两个概念:损失函数与风险.
决策就是对一件事要作决定.它与推断的差别在于是否涉及后果.统计学家在作推断时是按统计理论进行的,很少考虑结论在使用后的损失.可决策者在使用推断结果时必需与得失联系在一起,能带来利润的就会用,使他遭受损失的就不会被采用,度量得失的尺度就是损失函数.它是著名的统计学家A.Wald(1902-1950)在40年代引入的一个概念.从实际归纳出损失函数是决策的关键.
4.贝叶斯决策
把损失函数加入贝叶斯推断就形成贝叶斯决策论,损失函数被称为贝叶斯统计中的第四种信息.
当损失函数
L
(
θ
,
a
)
L(\theta,a)
L(θ,a)和
θ
\theta
θ的一个估计
θ
^
\hat\theta
θ^都给出来后,损失
L
(
θ
,
θ
^
)
L(\theta,\hat\theta)
L(θ,θ^)是随机变量。评估一个估计量
θ
^
\hat\theta
θ^的好坏,不能仅根据它在一时一地的表现,而应该根据它在
θ
\theta
θ取任何可能的值,及样本取任何可能的值时的平均表现来判断,我们定义
θ
^
\hat\theta
θ^的“风险”为:
R
θ
=
E
(
L
(
θ
,
θ
^
)
)
R _ { \theta } = E ( L ( \theta , \hat { \theta } ) )
Rθ=E(L(θ,θ^))
E
E
E的含义是对
θ
\theta
θ和
θ
^
\hat \theta
θ^的联合概率的数学期望,风险的概念就是平均损失,平均计算是即针对与样本又针对于参数计算的,风险越小则估计越好。
我们再定义一个估计量的后验风险:
r
θ
^
(
X
)
=
E
(
L
(
θ
,
θ
^
)
∣
X
)
r _ { \hat { \theta } ( X ) } = E ( L ( \theta , \hat { \theta } ) | X )
rθ^(X)=E(L(θ,θ^)∣X)
后验风险
r
θ
^
(
X
)
r_{ \hat { \theta } ( X ) }
rθ^(X)是在给定样本
X
X
X的时,
θ
^
\hat \theta
θ^的条件平均损失。由数学期望的性质有:
R
θ
^
=
E
(
r
θ
^
(
X
)
)
R_{\hat{\theta}}=E\left(r_{\hat{\theta}}(X)\right)
Rθ^=E(rθ^(X))因此,求风险
R
θ
^
R_{\hat{\theta}}
Rθ^分为两步。第一步,固定样本,求出损失函数对
θ
θ
θ的条件期望;第二步,求出风险。
1)贝叶斯估计就是风险最小
定义:设损失函数为
L
(
θ
,
a
)
L(\theta,a)
L(θ,a),若
θ
^
b
\hat \theta_b
θ^b为参数
θ
\theta
θ的一个估计,满足对
θ
\theta
θ的任一个估计
θ
^
\hat \theta
θ^有
R
θ
^
b
⩽
R
θ
^
R_{\hat\theta_b}\leqslant R_{\hat\theta}
Rθ^b⩽Rθ^则
θ
^
b
\hat \theta_b
θ^b为
θ
^
\hat \theta
θ^的贝叶斯估计.
由定义,贝叶斯估计就是风险最小估计,或平均损失最小估计,由定义及前两小节中的概念,贝叶斯估计取决于三个要素:先验分布,样本分布及損失函数.对于不同的三要素,贝叶斯估计(若存在的话)可以是不同的、下面,我们在相当一般的条件下来证明贝叶斯估计的存在唯一性.
定理:设损失函数
L
(
θ
,
a
)
L(\theta,a)
L(θ,a)足条件
inf
a
∈
θ
E
(
L
(
θ
,
a
)
∣
X
)
\mathop{\inf_{a\in\theta}E(L(\theta,a)|X)}
infa∈θE(L(θ,a)∣X)参数空间
Θ
\Theta
Θ上可唯一地达到,即存在唯一的
θ
^
b
∈
Θ
\hat\theta_b\in \Theta
θ^b∈Θ使得
E
(
L
(
θ
,
θ
^
b
)
∣
X
)
=
inf
a
∈
θ
E
(
L
(
θ
,
a
)
∣
X
)
E\left(L\left(\theta, \hat{\theta}_{b}\right)| X\right)=\inf _{a \in \theta} E(L(\theta, a) | X)
E(L(θ,θ^b)∣X)=a∈θinfE(L(θ,a)∣X)则称在为唯一的贝叶斯估计·
证明 设
θ
^
\hat\theta
θ^为
θ
\theta
θ的任一估计,则
E
(
L
(
θ
,
θ
^
)
∣
X
)
⩾
inf
a
∈
Θ
E
(
L
(
θ
,
a
)
∣
X
)
=
E
(
L
(
θ
,
θ
^
b
)
∣
X
)
.
E(L(\theta,\hat\theta)|X) \geqslant \inf_{a\in\Theta}E(L(\theta,a)|X)=E(L(\theta,\hat\theta_b)|X).
E(L(θ,θ^)∣X)⩾a∈ΘinfE(L(θ,a)∣X)=E(L(θ,θ^b)∣X).
因此,
R
θ
^
=
E
{
E
(
L
(
θ
,
θ
^
)
)
∣
X
}
⩾
E
{
E
(
L
(
θ
,
θ
^
b
)
)
∣
X
}
=
R
θ
^
b
.
R_{\hat\theta}=E \{ E(L(\theta,{\hat\theta}))|X\}\geqslant E \{ E(L(\theta,{\hat \theta_b}))|X \} = R_{\hat\theta_b}.
Rθ^=E{E(L(θ,θ^))∣X}⩾E{E(L(θ,θ^b))∣X}=Rθ^b.
上述不等式中=成立,当且仅当
θ
^
=
θ
^
b
\hat\theta=\hat\theta_b
θ^=θ^b因此为的唯一的贝
叶斯估计.
在上述的证明过程中,我们依据的基本事实是
r
θ
(
X
)
=
E
(
L
(
θ
,
θ
^
)
∣
X
)
⩾
E
(
L
(
θ
,
θ
^
b
)
∣
X
)
=
r
θ
^
b
(
X
)
\begin{aligned} r_{\theta}(X) &=\mathbf{E}(L(\theta, \hat\theta) | X) \\ & \geqslant \mathrm{E}\left(L\left(\theta, \hat{\theta}_{b}\right) | X\right)=r_{\hat \theta_{b}}(X) \end{aligned}
rθ(X)=E(L(θ,θ^)∣X)⩾E(L(θ,θ^b)∣X)=rθ^b(X)
因此,贝叶斯估计也就是后验风险最小估计.
在通常使用的损失函数中,二次和一次损失是使用最广泛的.
下面,我们给出在二次和一次損失下的贝叶斯估计的具体形式.首
先,我们不加证明地给出下面的事实:
对随机变量
X
X
X
(1)若
E
X
2
<
∞
\mathrm{E} \mathrm{X}^{2}<\infty
EX2<∞,则
E
(
X
−
E
X
)
2
=
min
a
E
(
X
−
a
)
2
\mathbf{E}(X-\mathbf{E} X)^{2}=\min _{a} \mathbf{E}(X-a)^{2}
E(X−EX)2=minaE(X−a)2;
(2)若
E
∣
X
∣
<
∞
\mathrm{E} \mathrm|X|<\infty
E∣X∣<∞,
M
(
X
)
M(X)
M(X)为
X
X
X的中位数,则
E
∣
X
−
M
(
X
)
∣
=
min
a
E
∣
X
−
a
∣
\mathbf{E}|X-\mathbf{M}(X)|=\min _{a} \mathrm{E}|X-a|
E∣X−M(X)∣=minaE∣X−a∣
定理:设损失函数
L
(
θ
,
a
)
=
(
θ
,
a
)
2
L(\theta,a)=(\theta,a)^2
L(θ,a)=(θ,a)2且
E
θ
2
<
∞
E \theta^2<\infty
Eθ2<∞,则
θ
^
b
=
E
(
θ
∣
X
)
\hat{\theta}_{b}=E(\theta | X)
θ^b=E(θ∣X)
为
θ
\theta
θ的唯一贝叶斯估计.
证明 根据上述的事实,
min
a
E
[
(
θ
−
a
)
2
∣
X
]
=
E
[
(
θ
−
E
(
θ
∣
X
)
)
2
∣
X
]
\min _a E\left[(\theta-a)^{2} | X\right]=E\left[(\theta-E(\theta | X))^{2} | X\right]
aminE[(θ−a)2∣X]=E[(θ−E(θ∣X))2∣X]
因此,由前定理及
E
(
θ
∣
X
)
\mathbf{E}(\theta | \boldsymbol{X})
E(θ∣X)的唯一性知,
θ
^
b
=
E
(
θ
∣
X
)
\hat\theta_{b}=\mathbf{E}(\theta | X)
θ^b=E(θ∣X)是
θ
\theta
θ的唯一贝叶斯估计.
定理:设损失函数
L
(
θ
,
a
)
=
∣
θ
,
a
)
∣
L(\theta,a)=|\theta,a)|
L(θ,a)=∣θ,a)∣,
且
M
(
θ
∣
X
)
M (\theta|X)
M(θ∣X)为给定
X
X
X时
θ
\theta
θ的唯一的条件中位数,且
E
∣
θ
∣
<
∞
E|\theta|<\infty
E∣θ∣<∞则
θ
^
b
=
M
(
θ
∣
X
)
\hat{\theta}_{b}=M(\theta | X)
θ^b=M(θ∣X)
为
θ
\theta
θ的唯一贝叶斯估计.
证明 根据上述的事实,
min
a
E
(
∣
θ
−
a
∣
∣
X
)
=
E
[
∣
θ
−
M
(
θ
∣
X
)
∣
∣
X
]
\min _{a} E(|\theta-a| | X)=E[|\theta-M(\theta | X)| | X]
aminE(∣θ−a∣∣X)=E[∣θ−M(θ∣X)∣∣X]
因此,由前定理及
M
(
θ
∣
X
)
\mathbf{M}(\theta | \boldsymbol{X})
M(θ∣X)的唯一性知,
θ
^
b
=
M
(
θ
∣
X
)
\hat\theta_{b}=\mathbf{M}(\theta | X)
θ^b=M(θ∣X)是
θ
\theta
θ的唯一贝叶斯估计.