蓄水池抽样算法

本文探讨了Reservoir Sampling算法的原理、实现方法及在处理海量数据时随机选取元素的应用场景,包括从未知数量的文件中随机抽取一行、从无限样本空间中随机选取k个数,以及算法的数学证明过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

Reservoir Sampling 蓄水池抽样海量数据不知道总数只能遍历一次随机抽样问题
2011年06月24日 星期五 下午 01:10

问题起源于编程珠玑Column 12中的题目10,其描述如下:

   How could you select one of n objects at random, where you see the objects sequentially but you do not know the value of n beforehand? For concreteness, how would you read a text file, and select and print one random line, when you don’t know the number of lines in advance?

   问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行?

  首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的获得一个行数,从而随机的取出一行,但是,当前的情况是不知道行数,这样如何求呢?我们需要一个概念来帮助我们做出猜想,来使得对每一行取出的概率相等,也即随机。这个概念即蓄水池抽样(Reservoir Sampling)

  有了这个概念,我们便有了这样一个解决方案:定义取出的行号为choice,第一次直接以第一行作为取出行 choice ,而后第二次以二分之一概率决定是否用第二行替换 choice ,第三次以三分之一的概率决定是否以第三行替换 choice ……,以此类推,可用伪代码描述如下:

i = 0

while more input lines

           with probability 1.0/++i

                   choice = this input line

print choice

  这种方法的巧妙之处在于成功的构造出了一种方式使得最后可以证明对每一行的取出概率都为1/n(其中n为当前扫描到的文件行数),换句话说对每一行取出的概率均相等,也即完成了随机的选取。

  证明如下:

   

    问题: 证明当前任意一行为取出行的概率为1/i,i为当前扫描到的行号,也即每一行取出的概率相等

   我们用数学归纳法来证明,

当i=1时,当前只浏览了第一行,因此第一行为取出行的概率为1/1=1,符合直接取出的条件
当i=k时,有前k行为取出行的概率为1/k,我们要证明的是,当i=k+1时,前k+1行每一行被取出的概率均相等,且为1/(k+1)。当扫描到第k+1行时,我们以1/(k+1)概率替换choice,易知,第k+1行为choice的概率即为1/(k+1),对于第k行,其为choice的概率是第k行为取出行的概率 * 第k+1行没有被取出的概率即,             

   对于第k行的证明同样可应用到前k-1行,对于其中第m行其为choice的概率是第m行为取出行的概率 * 第m+1行没有被取出的概率 * … *第k+1行没有被取出的概率,即

 

  由此证得当i=k+1时,所有行的取出概率为1/(k+1)。证毕。

  回顾这个问题,我们可以对其进行扩展,即如何从未知或者很大样本空间随机地取k个数?

  类比下即可得到答案,即先把前k个数放入蓄水池,对第k+1,我们以k/(k+1)概率决定是否要把它换入蓄水池,换入时随机的选取一个作为替换项,这样一直做下去,对于任意的样本空间n,对每个数的选取概率都为k/n。也就是说对每个数选取概率相等。

  伪代码:

Init : a reservoir with the size: k

for i= k+1 to N

    M=random(1, i);

    if( M < k)

     SWAP the Mth value and ith value

end for 

  证明我们仍然使用数学归纳法:

  问题,证明对于任意样本号n,n>=k,每个样本作为取出样本的概率相等,即k/n。

  证明:

  当n=k时,由我们把前k个数放入蓄水池可知,每个样本的取出概率均相等,即k/k=1。   设当前样本号为n,其每个取出样本概率均相等,即为k/n,我们要证明的是这种情况对于n+1也成立。

  由于我们以k/(n+1)决定是否把n+1放入蓄水池,那么对于n+1其出现在蓄水池中的概率就是k/(n+1),对于前n个元素中的任意元素m(k+1<=m<=n),其出现在蓄水池中的概率为 m出现在蓄水池中的概率 * [(m+1被选中的概率*m没被m+1替换的概率 + m+1没被选中的概率)*(m+2被选中的概率*m没被m+2替换的概率 + m+2没被选中的概率)*…*(n+1被选中的概率*m没被n+1替换的概率 + n+1没被选中的概率)],即

  可见,对于n+1每个样本取出概率也相等,即为k/(n+1)。证毕。

  蓄水池抽样问题是一类问题,在这里总结一下,并由衷的感叹这种方法之巧妙,不过对于这种思想产生的源头还是发觉不够,如果能够知道为什么以及怎么样想到这个解决方法的,定会更加有意义。

随即抽样问题:

 

    要求从N个元素中随机的抽取k个元素,其中N无法确定。

 

  是在 《计算机程序设计与艺术》 中看到的这个题目,书中只给出了解法,没给出证明。

 

  解决方法是叫Reservoir Sampling (蓄水池抽样)

 

 

                       Init : a reservoir with the size: k

 

                       for   i= k+1 to N

                              M=random(1, i);

                              if( M < k)

                                      SWAP the Mth value and ith value

                        end for

 

 

证明:

 

每次都是以 k/i 的概率来选择
例: k=1000的话,从1001开始作选择,1001被选中的概率是1000/1001,1002被选中的概率是1000/1002,与我们直觉是相符的。
 
接下来证明:
     假设当前是i+1, 按照我们的规定,i+1这个元素被选中的概率是k/i+1,也即第 i+1 这个元素在蓄水池中出现的概率是k/i+1
     此时考虑前i个元素,如果前i个元素出现在蓄水池中的概率都是k/i+1的话,说明我们的算法是没有问题的。
   
对这个问题可以用归纳法来证明:k < i <=N
   1.当i=k+1的时候,蓄水池的容量为k,第k+1个元素被选择的概率明显为k/(k+1), 此时前k个元素出现在蓄水池的概率为 k/(k+1), 很明显结论成立。
   2.假设当 j=i 的时候结论成立,此时以 k/i 的概率来选择第i个元素,前i-1个元素出现在蓄水池的概率都为k/i。  
      证明当j=i+1的情况:
      即需要证明当以 k/i+1 的概率来选择第i+1个元素的时候,此时任一前i个元素出现在蓄水池的概率都为k/(i+1).
前i个元素出现在蓄水池的概率有2部分组成, ①在第i+1次选择前得出现在蓄水池中,②得保证第i+1次选择的时候不被替换掉
①.由2知道在第i+1次选择前,任一前i个元素出现在蓄水池的概率都为k/i
       ②.考虑被替换的概率:  
首先要被替换得第 i+1 个元素被选中(不然不用替换了)概率为 k/i+1,其次是因为随机替换的池子中k个元素中任意一个,所以不幸被替换的概率是 1/k,故
       前i个元素(池中元素)中任一被替换的概率 = k/(i+1) * 1/k = 1/i+1
       则(池中元素中)没有被替换的概率为:   1 - 1/(i+1) = i/i+1
综合① ②,通过乘法规则
得到前i个元素出现在蓄水池的概率为 k/i * i/(i+1) = k/i+1
  故证明成立

 

1. 给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)。

解答:

先选中前k个, 从第k+1个元素到最后一个元素为止, 以1/i  (i=k+1, k+2,...,N) 的概率选中第i个元素,并且随机替换掉一个原先选中的元素, 这样遍历一次得到k个元素,可以保证完全随机选取。这个算法叫做蓄水池抽样,在某门课上听到的,证明起来也不是很复杂。

可以参考编程珠玑问题12.10:如何从n个排序的对象中选择一个,但实现不知道n的大小?

解答:总是选择第一个对象,并使用1/2的概率选择第二个对象,使用1/3的概率选择第三个对象,以此类推。在过程结束时,每个对像被选中的概率都是1/n。伪码如下:

i = 0;

while( more objects)

{

      with probability 1.0/i++

               choice = this object

      print choice


}

2. 给你一个数组A[1..n],请你在O(n)的时间里构造一个新的数组B[1..n],使得B[i]=A[1]*A[2]*...*A[n]/A[i]。你不能使用除法运算。

Solution:
1. 由于不知道N多大,因此不能使用[0, n]之间的等概率随机整数。遍历链表,给每个元素赋一个0到1之间的随机数作为权重(像Treap一样),最后取出权重最大的k个元素。你可以用一个堆来维护当前最大的k个数。
2. 从前往后扫一遍,然后从后往前再扫一遍。也就是说,线性时间构造两个新数组,P[i]=A[1]*A[2]*...*A[i],Q[i]=A[n]*A[n-1]*...*A[i]。于是,B[i]=P[i-1]*Q[i+1]。

本文由新浪微博 hbzyn1转载
<think>好的,我需要给用户介绍蓄水池抽样算法(Reservoir Sampling),并解释如何实现等概率抽样。用户可能已经了解了一些抽样方法,但想深入了解这个特定算法的原理和应用。 首先,我应该回顾蓄水池抽样算法的基本概念。这个算法用于从数据流中随机选取k个样本,使得每个元素被选中的概率相等。特别是当数据流很大或长度未知时,传统方法无法存储所有数据再进行随机抽样,这时候蓄水池抽样就很有用。 接下来,我需要解释算法的核心思想。例如,当处理第i个元素时(i从1开始),如果i ≤ k,直接放入蓄水池;如果i > k,则以k/i的概率替换蓄水池中的某个元素。这样能保证每个元素最终留在蓄水池中的概率都是k/n,其中n是数据流的总长度。需要说明这个概率是如何推导出来的,可能涉及到数学归纳法或者递推公式。 然后,应该给出具体的实现步骤。比如初始化蓄水池为前k个元素,然后从第k+1个元素开始遍历,生成随机数决定是否替换,替换时随机选择蓄水池中的一个位置。这里可能需要代码示例来帮助理解,比如用Python或伪代码展示算法流程。 还要比较不同情况下的应用,比如当k=1时的简化版本,以及如何处理大数据流。同时,可以提到算法的时间和空间复杂度,强调其空间效率高,只需O(k)的额外空间。 用户可能的疑问包括:为什么这个算法能保证等概率?如何处理动态数据流?有没有实际的应用案例?需要准备这些问题的答案,或者在介绍中提前解答。 另外,需要注意算法的限制和适用场景。比如,蓄水池抽样适用于数据流只能单向遍历一次的情况,如果数据可以多次访问,可能有更高效的抽样方法。同时,当k较大时,替换的概率计算可能需要优化,但通常k远小于n,所以影响不大。 最后,总结蓄水池抽样的优点,比如高效、节省内存,适用于日志处理、实时数据流分析等场景。可能举一些实际例子,比如从海量搜索日志中随机抽样查询进行分析,或者实时监控系统中抽取样本进行异常检测。</think>--- ### **蓄水池抽样算法(Reservoir Sampling)** #### **1. 问题背景** - **场景**:数据流长度未知或非常大,无法一次性存储全部数据,需从中等概率抽取 **k 个样本**。 - **目标**:每个元素被选中的概率为 **k/n**(n 为数据流总长度),且仅遍历一次数据流。 - **典型应用**:日志抽样、实时数据流分析、大规模数据库随机查询等。 --- #### **2. 算法核心思想** - **核心策略**:动态调整蓄水池(容量为k),按概率决定是否保留新元素。 - **关键步骤**: 1. **初始化**:将前k个元素直接放入蓄水池2. **遍历后续元素**:对第i个元素(i从k+1开始): - 以 **k/i** 的概率决定是否保留该元素。 - 若保留,随机替换蓄水池中的某个元素。 - **数学保证**:最终每个元素被选中的概率为 **k/n**。 --- #### **3. 算法推导(以 k=1 为例)** 假设数据流长度为n,证明每个元素被选中的概率为 **1/n**: - **第i个元素被选中**的概率 = **被选中的概率 × 后续不被替换的概率**。 - 选中概率:1/i。 - 不被替换的概率:i/(i+1) × (i+1)/(i+2) × ... × (n-1)/n = **i/n**。 - 最终概率:1/i × i/n = **1/n**。 - **推广到k个样本**:每个元素最终概率为 k/n。 --- #### **4. 算法实现** - **代码示例(Python)**: ```python import random def reservoir_sampling(data_stream, k): reservoir = [] # 初始化蓄水池 for i, item in enumerate(data_stream): if i < k: reservoir.append(item) else: # 生成 [0, i) 的随机整数,若 <k 则替换 j = random.randint(0, i) if j < k: reservoir[j] = item return reservoir ``` --- #### **5. 关键点分析** - **时间复杂度**:O(n),仅需一次遍历。 - **空间复杂度**:O(k),仅存储蓄水池。 - **随机性保证**:依赖均匀分布的随机数生成。 - **适用场景**: - 数据流长度未知(如实时日志)。 - 内存有限,无法存储全部数据。 --- #### **6. 扩展:分布式蓄水池抽样** - **场景**:数据分布在多个节点(如MapReduce任务)。 - **方法**: 1. 每个节点独立运行蓄水池抽样,得到本地k个样本。 2. 汇总所有节点的样本,再次运行蓄水池抽样,选出全局k个样本。 --- #### **7. 对比其他抽样方法** | **方法** | **优点** | **缺点** | |--------------------|------------------------------|------------------------------| | 蓄水池抽样 | 单次遍历,内存高效 | 仅适用于顺序访问数据流 | | 随机排序后取前k个 | 简单直观 | 需存储全部数据,不适用于大数据 | | 哈希分桶抽样 | 支持并行处理 | 需要设计均匀哈希函数 | -- #### **8. 应用案例** 1. **日志分析**:从TB级日志中随机抽取用户行为记录。 2. **推荐系统**:实时流中抽样用户点击数据更新模型。 3. **数据库查询**:对大规模表进行随机采样以估算统计量。 --- #### **9. 注意事项** - **随机数生成**:需保证均匀性,否则抽样结果有偏。 - **数据流结束**:最终蓄水池中的样本即为结果,无需后续调整。 - **动态数据流**:算法天然支持数据流持续输入的场景。 --- 蓄水池抽样通过巧妙的概率设计,在有限内存下实现了严格的等概率抽样,是处理海量数据流的核心随机化算法之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值