经验分布函数
定义:X1,⋯ ,Xn∼FX_1, \cdots,X_n\sim FX1,⋯,Xn∼F为IID样本,F是某个分布函数。则F的一个估计为经验分布函数:Fn^(x)=∑i=1NI(Xi<x)n\hat{F_n}(x)=\frac{\sum_{i=1}^{N}I(X_i<x)}{n}Fn^(x)=n∑i=1NI(Xi<x)上式的含义是在每一个数据处放置一个1n\frac{1}{n}n1的概率密度。个人理解就是类似于一个累计直方图。
其中,I(Xi<x)I(X_i<x)I(Xi<x)是示性函数,括号内满足时为1,不满足时为0。特别注意上式是关于xxx的函数。
无偏性
下面我要证明这个估计是一个无偏估计。
E[Fn^(x)]=E[∑i=1NI(Xi<x)n]=1n∑i=1NE[I(Xi<x)]=1n∑i=1N∫xI(Xi<x)fX(x)dx=1n∑i=1N∫Xi<xfX(x)dx=1n∑i=1NP(Xi<x)=F(x)
\begin{aligned}
E[\hat{F_n}(x)]
& =E[\frac{\sum_{i=1}^{N}I(X_i<x)}{n}]\\
& =\frac{1}{n}\sum_{i=1}^{N}E[I(X_i<x)]\\
&=\frac{1}{n}\sum_{i=1}^{N}\int_xI(X_i<x)f_X(x)dx\\
&=\frac{1}{n}\sum_{i=1}^{N}\int_{X_i<x}f_X(x)dx\\
&=\frac{1}{n}\sum_{i=1}^{N}P(X_i<x)\\
&=F(x)
\end{aligned}E[Fn^(x)]=E[n∑i=1NI(Xi<x)]=n1i=1∑NE[I(Xi<x)]=n1i=1∑N∫xI(Xi<x)fX(x)dx=n1i=1∑N∫Xi<xfX(x)dx=n1i=1∑NP(Xi<x)=F(x)
方差的推导
V(Fn^(x))=V(∑i=1NI(Xi<x)n)=1n2∑i=1NV(I(Xi<x))=1n2∑i=1N(E(I(Xi<x)2)−(E(I(Xi<x)))2)=1n2∑i=1N(E(I(Xi<x)−(E(I(Xi<x)))2)=1n2∑i=1N(F(x)−F(x)2)=F(x)(1−F(x))n
\begin{aligned}
\mathbb{V}(\hat{F_n}(x))&=V(\frac{\sum_{i=1}^{N}I(X_i<x)}{n})\\
&=\frac{1}{n^2}\sum_{i=1}^{N}V(I(X_i<x))\\
&=\frac{1}{n^2}\sum_{i=1}^{N}(E(I(X_i<x)^2)-(E(I(X_i<x)))^2)\\
&=\frac{1}{n^2}\sum_{i=1}^{N}(E(I(X_i<x)-(E(I(X_i<x)))^2)\\
&=\frac{1}{n^2}\sum_{i=1}^{N}(F(x)-F(x)^2)\\
&=\frac{F(x)(1-F(x))}{n}
\end{aligned}
V(Fn^(x))=V(n∑i=1NI(Xi<x))=n21i=1∑NV(I(Xi<x))=n21i=1∑N(E(I(Xi<x)2)−(E(I(Xi<x)))2)=n21i=1∑N(E(I(Xi<x)−(E(I(Xi<x)))2)=n21i=1∑N(F(x)−F(x)2)=nF(x)(1−F(x))
这里面用到了示性函数的平方等于它本身的特点。
这实际上也是Larry Wasserman《All of statistics》定理7.3的证明,也就是课后习题第一道。证明过程都是自己写的,不一定正确,欢迎大家来探讨。

本文介绍了经验分布函数的概念及其作为分布函数估计的方法,并通过数学推导验证了其无偏性和方差特性。
6万+

被折叠的 条评论
为什么被折叠?



