背景
在统计学习中,经常要求期望:
比如E[f(x)]E[f(x)]E[f(x)],x为连续型随机变量,如果已知xxx的分布p(x)p(x)p(x),则:
E[f(x)]=∫f(x)p(x)dxE[f(x)]=\int f(x)p(x)dxE[f(x)]=∫f(x)p(x)dx
但是如果f(x)p(x)f(x)p(x)f(x)p(x)过于复杂,该积分可能无法直接计算。此时采样方法就可以排上用场了。
原理
采样近似计算基于以下思想:
E[f(x)]=1n∑i=1nf(xi)E[f(x)]= \frac{1}{n}\sum_{i=1}^n f(x_i)E[f(x)]=n1∑i=1nf(xi), {xi}i=1n\{x_i\}_{i=1}^n{xi}i=1n 来自于采样。这样积分被简化为求和。
但问题是{xi}i=1n\{x_i\}_{i=1}^n{xi}i=1n 如何获取,并且使xxx符合已知的密度概率分布p(x)p(x)p(x).
一般情况下,随机均匀分布样本{zi}i=1n\{z_i\}_{i=1}^n{zi}i=1n可以很容易获取, 我们假设存在可逆变换T:x=T(z)T: x=T(z)T:x=T(z),使得使xxx符合已知的密度概率分布p(x)p(x)p(x).
则xxx的累计概率分布:
F(x)=P(T(z)≤x)=P(z≤T−1(x))=Fu(T−1(x))F(x)=P(T(z)\le x)=P(z\le T^{-1}(x))=F_u(T^{-1}(x))F(x)=P(T(z)≤x)=P(z≤T−1(x))=Fu(T−1(x))
此时:
F(x)F(x)F(x)已知:因为F(x)=∫xp(x′)dx′F(x)=\int ^x p(x')dx'F(x)=∫xp(x′)dx′。
Fu(z)F_u(z)Fu(z)已知:通常为均匀分布:
Fu(z)={11≤zz0≤z<10z<0F_u(z)=\left\{
\begin{array}{rcl}
1 & & {1 \le z}\\
z & & {0\le z< 1}\\
0 & & {z < 0}
\end{array} \right. Fu(z)=⎩⎨⎧1z01≤z0≤z<1z<0
所以:
F(x)=T−1(x)F(x)=T^{-1}(x)F(x)=T−1(x);
即所求的可逆变换T(x)=F−1(x)T(x)=F^{-1}(x)T(x)=F−1(x)。
当然这也要求累计概率分布函数F(x)F(x)F(x)可逆。