1.首先蓄水池过程
蓄水池抽样是在位置数据集规模的情况下,随机采样P条数据(即P表示蓄水池的容量),容量C未知,数据集中每一条数据被抽中的概率均等。
2.过程分析
对任意数据M,位于数据集第n条(n>C),它最终存在于样本中的概率是遍历到它是被选中的概率乘以后面的元素未被选中的概率(被选中的概率为(P/n)*(n/(n-1))*...*(C-1)/C))=P/C。
简单理解就是第n条被选中的概率是P/n再乘以后面的元素都不被选中的概率,就是最终这个元素存在于样本中的概率,所以可以得出任意元素被抽中的概率是P/C。
n>C表示蓄水池外的数据,那么蓄水池内的数据呢,其实蓄水池内的数据初次被放入蓄水池的概率可以看做1.则它被替换的概率是1*P/(P+1)*....*(C-1)/C=P/C