蓄水池抽样算法

本文介绍了一种从大量或未知长度的数据流中等概率选取指定数量数据的蓄水池抽样算法。针对数据流只能访问一次的情况,通过逐步递增的方式确保每个数据被选中的概率相等。

刚好看到了记录一下:

“给出一个数据流,这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法,使得数据流中所有数据被选中的概率相等。”

首先,我们考虑从n个对象中等概率的选取1个对象。如果我们知道n的值,那么只需要从0-n-1中随机一个数选取它就可以了,被选中的概率是1/n

如果我们不知道n的值的时候,这个问题就转换成了一个蓄水池抽样问题,即我们总是选择第一个对象,以1/2的概率选择第二个,以1/3的概率选择第三个,

以此类推,以1/m的概率选取地m个对象,当该过程结束时,对每个对象具有相同选中的概率,均为1/n

证明如下:

m个对象最终被选中的概率P = 选择m的概率*后面所有的对象均不被选中的概率

伪代码如下:
i = 0  
while more input items  
        with probability 1.0 / ++i  
                choice = this input item  
print choice

Java代码如下:

k个中的代码k=1即可。

对于选取K的对象,思路类似。首先把读到的前K个对象放入“水库”,从第k+1个对象开始对于第m个对象,以k/m的概率选取,并以1/k的概率替换水库中的一个对象(貌似替换水库中的一个对象就是1/k,因为只能替换一个嘛),当这个过程结束,每个被选中的概率均为k/n。其实选取一个就是k=1这个特例

证明如下:

m个对象被选中的概率=选择m的概率*(其后元素不被选中的概率+其后元素被选中*不替换已经在水库中的m的概率)

伪代码如下:
array S[n];    //source, 0-based  
array R[k];    // result, 0-based  
integer i, j;  
  
// fill the reservoir array  
for each i in 0 to k - 1 do  
        R[i] = S[i]  
done;  
  
// replace elements with gradually decreasing probability  
for each i in k to n do  
        j = random(0, i);   // important: inclusive range  
        if j < k then  
                R[j] = S[i]  
        fi  
done 

java代码:

    public static int[] doReservoirSampling(int[] source, int k){
        int[] result = new int[k];
        int index = -1;      
        for (int i : source) {
            ++index;
            if (index < k) { //将前k项先保存进结果数组中
                result[index] = source[index];
                continue;
            }
            int j = random.nextInt(index + 1);//生成随机数 下标是从0开始,但是概率是从1开始计算的
            if (j < k) {  //一共可以产生0-index 这么多数,其中0到k-1都可以满足条件,这样概率就是k/index+1
                result[j] = source[index];
            }
        }
        return result;
    }

测试结果(10000次):

K=1的时候:

total used : 0ms
1 : 993
2 : 1000
3 : 968
4 : 988
5 : 990
6 : 990
7 : 1072
8 : 1039
9 : 950
10 : 1010


K=5的时候:

total used : 15ms
1 : 4959
2 : 5007
3 : 4968
4 : 5077
5 : 4964
6 : 4926
7 : 5037
8 : 4974
9 : 5088
10 : 5000


参考链接:

http://blog.jobbole.com/42550/

http://blog.youkuaiyun.com/huagong_adu/article/details/7619665




<think>好的,我需要给用户介绍蓄水池抽样算法(Reservoir Sampling),并解释如何实现等概率抽样。用户可能已经了解了一些抽样方法,但想深入了解这个特定算法的原理和应用。 首先,我应该回顾蓄水池抽样算法的基本概念。这个算法用于从数据流中随机选取k个样本,使得每个元素被选中的概率相等。特别是当数据流很大或长度未知时,传统方法无法存储所有数据再进行随机抽样,这时候蓄水池抽样就很有用。 接下来,我需要解释算法的核心思想。例如,当处理第i个元素时(i从1开始),如果i ≤ k,直接放入蓄水池;如果i > k,则以k/i的概率替换蓄水池中的某个元素。这样能保证每个元素最终留在蓄水池中的概率都是k/n,其中n是数据流的总长度。需要说明这个概率是如何推导出来的,可能涉及到数学归纳法或者递推公式。 然后,应该给出具体的实现步骤。比如初始化蓄水池为前k个元素,然后从第k+1个元素开始遍历,生成随机数决定是否替换,替换时随机选择蓄水池中的一个位置。这里可能需要代码示例来帮助理解,比如用Python或伪代码展示算法流程。 还要比较不同情况下的应用,比如当k=1时的简化版本,以及如何处理大数据流。同时,可以提到算法的时间和空间复杂度,强调其空间效率高,只需O(k)的额外空间。 用户可能的疑问包括:为什么这个算法能保证等概率?如何处理动态数据流?有没有实际的应用案例?需要准备这些问题的答案,或者在介绍中提前解答。 另外,需要注意算法的限制和适用场景。比如,蓄水池抽样适用于数据流只能单向遍历一次的情况,如果数据可以多次访问,可能有更高效的抽样方法。同时,当k较大时,替换的概率计算可能需要优化,但通常k远小于n,所以影响不大。 最后,总结蓄水池抽样的优点,比如高效、节省内存,适用于日志处理、实时数据流分析等场景。可能举一些实际例子,比如从海量搜索日志中随机抽样查询进行分析,或者实时监控系统中抽取样本进行异常检测。</think>--- ### **蓄水池抽样算法(Reservoir Sampling)** #### **1. 问题背景** - **场景**:数据流长度未知或非常大,无法一次性存储全部数据,需从中等概率抽取 **k 个样本**。 - **目标**:每个元素被选中的概率为 **k/n**(n 为数据流总长度),且仅遍历一次数据流。 - **典型应用**:日志抽样、实时数据流分析、大规模数据库随机查询等。 --- #### **2. 算法核心思想** - **核心策略**:动态调整蓄水池(容量为k),按概率决定是否保留新元素。 - **关键步骤**: 1. **初始化**:将前k个元素直接放入蓄水池。 2. **遍历后续元素**:对第i个元素(i从k+1开始): - 以 **k/i** 的概率决定是否保留该元素。 - 若保留,随机替换蓄水池中的某个元素。 - **数学保证**:最终每个元素被选中的概率为 **k/n**。 --- #### **3. 算法推导(以 k=1 为例)** 假设数据流长度为n,证明每个元素被选中的概率为 **1/n**: - **第i个元素被选中**的概率 = **被选中的概率 × 后续不被替换的概率**。 - 选中概率:1/i。 - 不被替换的概率:i/(i+1) × (i+1)/(i+2) × ... × (n-1)/n = **i/n**。 - 最终概率:1/i × i/n = **1/n**。 - **推广到k个样本**:每个元素最终概率为 k/n。 --- #### **4. 算法实现** - **代码示例(Python)**: ```python import random def reservoir_sampling(data_stream, k): reservoir = [] # 初始化蓄水池 for i, item in enumerate(data_stream): if i < k: reservoir.append(item) else: # 生成 [0, i) 的随机整数,若 <k 则替换 j = random.randint(0, i) if j < k: reservoir[j] = item return reservoir ``` --- #### **5. 关键点分析** - **时间复杂度**:O(n),仅需一次遍历。 - **空间复杂度**:O(k),仅存储蓄水池。 - **随机性保证**:依赖均匀分布的随机数生成。 - **适用场景**: - 数据流长度未知(如实时日志)。 - 内存有限,无法存储全部数据。 --- #### **6. 扩展:分布式蓄水池抽样** - **场景**:数据分布在多个节点(如MapReduce任务)。 - **方法**: 1. 每个节点独立运行蓄水池抽样,得到本地k个样本。 2. 汇总所有节点的样本,再次运行蓄水池抽样,选出全局k个样本。 --- #### **7. 对比其他抽样方法** | **方法** | **优点** | **缺点** | |--------------------|------------------------------|------------------------------| | 蓄水池抽样 | 单次遍历,内存高效 | 仅适用于顺序访问数据流 | | 随机排序后取前k个 | 简单直观 | 需存储全部数据,不适用于大数据 | | 哈希分桶抽样 | 支持并行处理 | 需要设计均匀哈希函数 | -- #### **8. 应用案例** 1. **日志分析**:从TB级日志中随机抽取用户行为记录。 2. **推荐系统**:实时流中抽样用户点击数据更新模型。 3. **数据库查询**:对大规模表进行随机采样以估算统计量。 --- #### **9. 注意事项** - **随机数生成**:需保证均匀性,否则抽样结果有偏。 - **数据流结束**:最终蓄水池中的样本即为结果,无需后续调整。 - **动态数据流**:算法天然支持数据流持续输入的场景。 --- 蓄水池抽样通过巧妙的概率设计,在有限内存下实现了严格的等概率抽样,是处理海量数据流的核心随机化算法之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值