生动理解蓄水池抽样

本文深入解析了蓄水池抽样算法的工作原理及过程。蓄水池抽样是一种在数据集规模未知的情况下,随机抽取固定数量样本的算法,确保每条数据被抽中的概率相等。文中详细解释了如何计算数据集任一元素被抽中的概率,以及蓄水池内数据被替换的概率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.首先蓄水池过程

     蓄水池抽样是在位置数据集规模的情况下,随机采样P条数据(即P表示蓄水池的容量),容量C未知,数据集中每一条数据被抽中的概率均等。

2.过程分析

    对任意数据M,位于数据集第n条(n>C),它最终存在于样本中的概率是遍历到它是被选中的概率乘以后面的元素未被选中的概率(被选中的概率为(P/n)*(n/(n-1))*...*(C-1)/C))=P/C。

    简单理解就是第n条被选中的概率是P/n再乘以后面的元素都不被选中的概率,就是最终这个元素存在于样本中的概率,所以可以得出任意元素被抽中的概率是P/C。

    n>C表示蓄水池外的数据,那么蓄水池内的数据呢,其实蓄水池内的数据初次被放入蓄水池的概率可以看做1.则它被替换的概率是1*P/(P+1)*....*(C-1)/C=P/C

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值