从随机变量到顺序统计量
考虑如下的游戏:有一个魔盒(随机数生成器),上有一个按钮,每按一下按钮,就均匀地输出一个 U∼[0,1]之间的随机数,现在按上下,得到10个随机数,第7大的数是多少?我更进一步发问,第7大的数,要求猜测不超过0.01才算对。
对上面的游戏作如下的数学抽象:
- X1,X2,⋯,Xn∼iidU(0,1)
- 把这 n 个随机变量排序后得到的顺序统计量
X(1),X(2),…,X(n) - 问 X(k)的分布是什么?
对于上面的游戏而言 n=10,k=7,如果我们能求出 X(7)的分布的概率密度,那么用概率密度的极值点取做猜测是最好的策略。对于一般的情形,X(k)的分布是什么呢?那么我们尝试计算 X(k) 落在区间 [x,x+Δx] 的概率,也即求如下的概率值:
把 [0,1]区间内分为三段 [0,x),[x,x+Δx],(x+Δx,1],我们首先考虑简单的情形(这不正是数学研究的基本方法论吗,从简单到复杂),假设 n 个数中只有一个落在了区间
- 则
- (x+Δx]这个区间中应该有 n−k个数。
不失一般性的,我们先考虑如下的一个符合上述要求的事件 E:
则有:
对 (1−x−Δx)n−k应用二项展开,也即:
其中 o(Δx)表示 Δx的高阶无穷小,所以,可对 P(E),继续展开得:
再来考虑这之中的组合数,也即 n个数中有一个落在
继续考虑稍微复杂一点的情形,假设 n 个数有两个数落在了区间
则有:
从以上的分析我们很容易看出,只要落在 [x,x+Δx]内的数字超过一个,则对应的事件的概率就是 o(Δx)。于是:
所以可以得到X(k)的概率密度为:
利用Gamma函数,我们可以把 f(x)表达为:
还记得神奇的Gamma函数可以把许多数学概念从整数集合延拓到实数集合。
我们记 α=k,β=n−k+1,于是我们得到:
这就是一般意义上的Beta分布。
好,我们回到开始的游戏,n=10,k=7,我们按照如下的密度分布的峰值取猜测是最有把握的: