Cramer-Rao下界

TomHeaven

已于 2022-10-08 11:36:22 修改

阅读量4.2w

点赞数 26

CC 4.0 BY-SA版权

分类专栏：概率统计文章标签： Cramer Rao 方差统计下界

于 2017-01-11 13:36:32 首次发布

本文链接：https://blog.youkuaiyun.com/hanlin_tan/article/details/54342590

概率统计专栏收录该内容

2 篇文章

订阅专栏

在参数估计和统计中，Cramer-Rao界限（Cramer-Rao bound, CRB）或者Cramer-Rao下界（CRLB），表示一个确定性参数的估计的方差下界。命名是为了纪念Harald Cramer和Calyampudi Radhakrishna Rao。这个界限也称为Cramer-Rao不等式或者信息不等式。

它的最简单形式是：任何无偏估计的方差至少大于Fisher信息的倒数。一个达到了下界的无偏估计被称为完全高效的（fully efficient）。这样的估计达到了所有无偏估计中的最小均方误差（MSE，mean square error），因此是最小方差无偏（MVU，minimum variance unbiased）估计。

给定偏倚，Cramer-Rao界限还可以用于确定有偏估计的界限。在一些情况下，有偏估计方法的结果可能方差和均方差都小于无偏估计的Cramer-Rao下界。

标量情形

标量的无偏情形

假设 $θ\theta$ 是一个位置确定性参数。我们需要从观察变量 $x$ 估计它。而它们满足一个概率密度函数 $f(x;θ)f(x;\theta)$ 。任何 $θ\theta$ 的无偏估计 $θ^\hat{\theta}$ 的方差的下界为Fisher信息 $I(θ)I(\theta)$ 的倒数：
\begin{equation}
\mathrm{Var}{\hat{\theta}} \ge \frac{1}{I(\theta)}
\end{equation}
其中Fisher信息定义为
\begin{equation}
I(\theta) = \mathrm{E}[(\frac{\partial \ln f(x;\theta)}{\partial \theta})^2] =-\mathrm{E}[\frac{\partial^2 \ln f(x;\theta)}{\partial \theta^2}]
\end{equation}
其中 $E\mathrm{E}$ 表示求期望。

无偏估计 $θ^\hat{\theta}$ 的效率描述估计的方差有多接近下限，定义为
\begin{equation}
e(\theta) = \frac{I(\theta)^{-1}}{\mathrm{Var} (\hat \sigma)}
\end{equation}
显然有
\begin{equation}
0 \le e(\hat{\sigma}) \le 1
\end{equation}

标量的一般情形

更一般的情况是考虑参数 $θ\theta$ 的无偏估计 $T (X)$ 。这里的无偏性理解为 $E[T(X)]=ϕ(θ)\mathrm{E} [ T(X)] = \phi (\theta)$ 。这种情况下，方差的下界为
\begin{equation}
\mathrm{Var}(T) \ge \frac{[\phi’(\theta)]^2}{I(\theta)}
\label{eq:gsc}
\end{equation}
其中 $ϕ′(θ)\phi'(\theta)$ 表示 $ϕ(θ)\phi(\theta)$ 关于 $θ\theta$ 的导数， $I(θ)I(\theta)$ 仍然是Fisher信息。

有偏估计的界限

考虑估计 $θ^\hat\theta$ ，设其偏倚 $b(θ)=E[θ^]−θb(\theta) = \mathrm{E}[\hat\theta] - \theta$ ，令 $ϕ(θ)=b(θ)+θ\phi(\theta) = b(\theta) + \theta$ 。利用上式，任何期望为 $ϕ(θ)\phi(\theta)$ 的无偏估计的方差都大于等于 $(ϕ′(θ)2)/I(θ))(\phi'(\theta)^2) / I(\theta))$ 。于是
\begin{equation}
\mathrm{Var} (\hat{\theta}) \ge \frac{[1 + b’(\theta)]^2}{I(\theta)}
\end{equation}
当 $b(θ)=0b(\theta) = 0$ ，上式退化为无偏估计得方差界限。当估计 $θ^\hat\theta$ 退化为常数（概率密度函数为脉冲函数），则方差退化为0。

从上式，利用标准分解可以推出有偏估计的均方误差下界为
\begin{equation}
\mathrm{E}[(\hat\theta - \theta)^2] \ge \frac{[1 + b’(\theta)]^2}{I(\theta)} + b(\theta)^2
\end{equation}
注意，如果 $1+b′(θ)<11+b'(\theta) < 1$ ，那么上式右端的下界可能小于Cramer-Rao下界。例如，当 $1+b′(θ)=nn+2<11+b'(\theta) = \frac{n}{n+2} < 1$ 。

多元变量的情形

定义向量 $,θd]T∈Rd\theta =[\theta_1, \theta_2, \cdots, \theta_d]^T \in R^d$ ，它的概率密度函数为 $\theta)$ 满足后面的两个正则化条件。Fisher信息矩阵是一个 $\times d$ 的矩阵，元素 $I_{m,k}$ 定义为
\begin{equation}
I_{m, k} = \mathrm{E}[\frac{\partial}{\partial \theta_m} \ln f(x;\theta) \frac{\partial}{\partial \theta_k} \ln f(x;\theta) ] = -\mathrm{E}[ \frac{\partial^2}{\partial \theta_m \partial \theta_k} \ln f(x;\theta) ]
\end{equation}

令 $T (X)$ 为一个向量函数的估计， $(T_1(X), T_2(X), \cdots, T_d(X))^T$ ，记它的期望向量 $E[T(X)]\mathrm{E}[T(X)]$ 为 $ϕ(θ)\phi(\theta)$ 。Cramer-Rao下界认为T(X)的协方差矩阵满足
\begin{equation}
\mathrm{Cov}_\theta (T(X)) \ge \frac{\partial \phi(\theta)}{\partial \theta} [I(\theta)]^{-1} ( \frac{\partial \phi(\theta)}{\partial \theta})^T
\end{equation}
其中

矩阵大于等于符号 $\ge B$ 表示 $A - B$ 是一个半正定矩阵；
$∂ϕ(θ)/∂θ\partial \phi(\theta) / \partial \theta$ 是雅克比矩阵，它的第 $ij$ 个元素为 $∂ϕi(θ)/∂θj\partial \phi_i(\theta) / \partial \theta_j$ 。

当 $T (X)$ 为 $θ\theta$ 的无偏估计（例如 $T(θ)=θT(\theta) = \theta$ ），则Cramer-Rao法则退化为
\begin{equation}
\mathrm{Cov_\theta}(T(X)) \ge I(\theta)^{-1}
\end{equation}

两个正则化条件

边界依赖两个关于 $f(x;θ)f(x;\theta)$ 和 $T (X)$ 的弱正则化条件：

Fisher信息矩阵总是存在。等价地说，对于所有 $x$ ，如果 $f(x;θ)>0f(x;\theta) > 0$ ，则 $∂ln⁡f(x;θ)/∂θ\partial \ln f(x; \theta) / \partial \theta$ 存在并且有限。
对 $x$ 的积分和对 $θ\theta$ 的微分可以交换顺序。也就是说，在下式右侧有限时，有
\begin{equation}
\frac{\partial}{\partial \theta} [\int T(x) f(x;\theta) dx] = \int T(x) [\frac{\partial}{\partial \theta} f(x; \theta)] dx
\end{equation}

上述条件通常可以通过以下任意一个条件来确认：

函数 $\theta)$ 在 $x$ 中有边界支持，并且边界不依赖于 $θ\theta$ 。
函数 $\theta)$ 有有限的支持，连续可微，并且对于所有 $θ\theta$ 积分收敛。

标量情形的证明

假设 $T = t (X)$ 是一个 $ϕ(θ)\phi(\theta)$ 的无偏估计，且 $\phi(\theta)$ 。目标是证明，对于所有 $θ\theta$ ，
\begin{equation}
Var(t(X)) \ge \frac{[\phi’ (\theta)]^2}{I(\theta)}
\end{equation}

令 $X$ 为随机变量，且概率密度函数为 $f(x;θ)f(x;\theta)$ . $T = t (X)$ 为统计量，且作为 $ϕ(θ)\phi (\theta)$ 的估计。定义 $V$ 为概率密度函数关于 $θ\theta$ 的偏导数
\begin{equation}
V = \frac{\partial}{\partial \theta} \ln f(X; \theta) = \frac{1}{f(X; \theta)} \frac{\partial}{\partial \theta} f(X; \theta)
\end{equation}
可以发现， $V$ 的概率密度函数也是 $f(X;θ)f(X;\theta)$ 。利用第二个正则化条件，可以得到 $V$ 的期望为0。即
\begin{equation}
\mathrm{E}(V) = \int f(x;\theta)[ \frac{1}{f(x; \theta)} \frac{\partial}{\partial \theta} f(x; \theta)]dx= \frac{\partial}{\partial \theta} [\int f(x;\theta) dx] = 0
\end{equation}
因为 $E(V)=0\mathrm{E}(V)=0$ ，由协方差定义式可以推出 $Cov(V,T)=E(VT)\mathrm{Cov}(V, T) = \mathrm{E}(VT)$ 。展开可以得到
\begin{equation}
\begin{aligned}
\mathrm{Cov}(V, T) =& \mathrm{E}(T \cdot [ \frac{1}{f(X; \theta)} \frac{\partial}{\partial \theta} f(X; \theta) ]) \
=& \int t(x)[\frac{1}{f(x; \theta)} \frac{\partial}{\partial \theta} f(x; \theta)] f(x; \theta) dx \
=& \frac{\partial}{\partial \theta} [\int t(x) f(x;\theta) dx] \
= & \phi’(\theta)
\end{aligned}
\end{equation}
由柯西-施瓦茨不等式可得
\begin{equation}
\sqrt{\mathrm{Var}(T)\mathrm{Var}(V) } \ge \vert \mathrm{Cov}(V, T) \vert = \vert \phi’(\theta) \vert
\end{equation}
因此
\begin{equation}
\mathrm{Var}(T) \ge \frac{[\phi’(\theta)]^2}{\mathrm{Var}(V)} = \frac{[\phi’(\theta)]^2}{I(\theta)}
\end{equation}

参考文献

[https://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93Rao_bound#Regularity_conditions][1]
[1]:https://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93Rao_bound#Regularity_conditions