排列、组合、蓄水池抽样

排列

从{1,2,3,4,5} 5个元素中取3个数排列。第一次取有5种情况,拿出一个数后,第二次取有4种情况,第三次取有3中情况。所以5中取3的排列共有
5*(5-1)(5-2) = 60种情况,由{1,2,3} 3个数的排列由32*1=6中。也就是每一种组合有6种排列。

组合

所以{1,2,3,4,5}中取三个数的组合为
5∗(5−1)∗(5−2)3∗(3−1)(3−2)=10 \frac{5*(5-1)*(5-2)}{3*(3-1)(3-2)} = 10 3(31)(32)5(51)(52)=10
推广到一般情况,从N个元素中取K个元素的组合个数,记作C(N,K),则有
C(N,K)=N∗(N−1)∗(N−2)...∗(N−(K−2))∗(N−(K−1))K∗(K−1)∗(K−2)...∗3∗2∗1 C(N,K) = \frac{N*(N-1)*(N-2)...*(N-(K-2))*(N-(K-1))}{K*(K-1)*(K-2)...*3*2*1} C(NK)=K(K1)(K2)...321N(N1)(N2)...(N(K2))(N(K1))

其中,含有某个元素m的组合个数,取出m后,还剩N-1个元素,从中要抽取另外K-1个元素,和m组成组合。所以C(N,K)个组合中含有某个确定元素m的组合个数为C(N-1,K-1),那么对于N个元素取出K个元素,某个元素被抽中的概率
P=C(N−1,K−1)C(N,K)=KN P = \frac{C(N-1,K-1)}{C(N,K)} = \frac{K}{N} P=C(N,K)C(N1,K1)=NK

蓄水池抽样

123456KK+1N-1N

使用均匀随机数生成函数rand(),从N个元素中抽取K个元素。要求每个元素被抽中的概率符合KN\frac{K}{N}NK
为了便于理解,下面的说明违背了程序编写的传统,数组索引不从0开始,而从1起始。
从第K+1个元素开始处理,

第K+1个元素,int index = rand()%(K+1) + 1; index的取值范围是[1,K+1],如果 index 的取值在[1,K]上,则 把第K+1个元素与index位置的元素交换。这个事件发生的概率为KK+1\frac{K}{K+1}K+1K
第K+2个元素,int index = rand()%(K+2) + 1; index的取值范围是[1,K+2],如果 index 的取值在[1,K]上,则 把第K+2个元素与index位置的元素交换。这个事件发生的概率为KK+2\frac{K}{K+2}K+2K
第K+3个元素,int index = rand()%(K+3) + 1; index的取值范围是[1,K+3],如果 index 的取值在[1,K]上,则 把第K+3个元素与index位置的元素交换。这个事件发生的概率为KK+3\frac{K}{K+3}K+3K


第N-1个元素,int index = rand()%(N-1) + 1; index的取值范围是[1,N-1],如果 index 的取值在[1,K]上,则 把第N-1个元素与index位置的元素交换。这个事件发生的概率为KN−1\frac{K}{N-1}N1K
第N个元素,int index = rand()%(N) + 1; index的取值范围是[1,N],如果 index 的取值在[1,K]上,则 把第N个元素与index位置的元素交换。这个事件发生的概率为KN\frac{K}{N}NK

index123456KK+1N-1N
pKK+1\frac{K}{K+1}K+1KKN−1\frac{K}{N-1}N1KKN−2\frac{K}{N-2}N2K

证明,经过这轮操作后,N个元素中每个元素在前K个的概率均符合要求,分两种情况讨论。
1,索引为m的元素,m<=K,想要在处理后仍然在前K个,必须满足,所有的随机生成int index全不为m,淘汰是个单向过程,一旦被从前K个剔除,就无法回到前K个中。所以
P=KK+1∗K+1K+2∗K+2K+3∗N−2N−1∗N−1N=KNP = \frac{K}{K+1} *\frac{K+1}{K+2} *\frac{K+2}{K+3} *\frac{N-2}{N-1} * \frac{N-1}{N} = \frac{K}{N} P=K+1KK+2K+1K+3K+2N1N2NN1=NK

2,索引为m的元素,m>K,在处理前不在前K个元素,所以它被抽中必须要满足处理到它时的计算出的index值小于等于K,这样m元素就被交换到了前K个,且在处理后面的元素是,m元素没被交换出去。
P=Km∗mm+1∗m+1m+2∗N−2N−1∗N−1N=KNP = \frac{K}{m} *\frac{m}{m+1} *\frac{m+1}{m+2} *\frac{N-2}{N-1} * \frac{N-1}{N} = \frac{K}{N} P=mKm+1mm+2m+1N1N2NN1=NK
证的,N中某个任意元素经过这个操作,位置在K前个的概率等于,N个元素取出K个元素,某个元素被抽中的概率。

#include <vector>
#include <iostream>
using namespace std;

const int N = 1000;
const int K = 100;
int main(int argc, char *argv[])
{
    vector<int> v;
    for(int i=0;i<N;i++)
    {
        v.push_back(i);
    }
    for(int i=K;i<N;i++)
    {
        int index = rand()%(i+1);
        if(index<K)
        {
            int temp = v[index];
            v[index] = v[i];
            v[i] = temp;

//            cout<<index<<"  "<< v[index] << " "<<v[i]<<endl;
        }

    }
    for(int i=0;i<K;i++)
    {
        cout<<v[i]<<endl;
    }

    return 0;
}
内容概要:本文介绍了一个基于Matlab的综合能源系统优化调度仿真资源,重点实现了含光热电站、有机朗肯循环(ORC)和电含光热电站、有机有机朗肯循环、P2G的综合能源优化调度(Matlab代码实现)转气(P2G)技术的冷、热、电多能互补系统的优化调度模型。该模型充分考虑多种能源形式的协同转换与利用,通过Matlab代码构建系统架构、设定约束条件并求解优化目标,旨在提升综合能源系统的运行效率与经济性,同时兼顾灵活性供需不确定性下的储能优化配置问题。文中还提到了相关仿真技术支持,如YALMIP工具包的应用,适用于复杂能源系统的建模与求解。; 适合人群:具备一定Matlab编程基础和能源系统背景知识的科研人员、研究生及工程技术人员,尤其适合从事综合能源系统、可再生能源利用、电力系统优化等方向的研究者。; 使用场景及目标:①研究含光热、ORC和P2G的多能系统协调调度机制;②开展考虑不确定性的储能优化配置与经济调度仿真;③学习Matlab在能源系统优化中的建模与求解方法,复现高水平论文(如EI期刊)中的算法案例。; 阅读建议:建议读者结合文档提供的网盘资源,下载完整代码和案例文件,按照目录顺序逐步学习,重点关注模型构建逻辑、约束设置与求解器调用方式,并通过修改参数进行仿真实验,加深对综合能源系统优化调度的理解。
<think>好的,我需要给用户介绍蓄水池抽样算法(Reservoir Sampling),并解释如何实现等概率抽样。用户可能已经了解了一些抽样方法,但想深入了解这个特定算法的原理和应用。 首先,我应该回顾蓄水池抽样算法的基本概念。这个算法用于从数据流中随机选取k个样本,使得每个元素被选中的概率相等。特别是当数据流很大或长度未知时,传统方法无法存储所有数据再进行随机抽样,这时候蓄水池抽样就很有用。 接下来,我需要解释算法的核心思想。例如,当处理第i个元素时(i从1开始),如果i ≤ k,直接放入蓄水池;如果i > k,则以k/i的概率替换蓄水池中的某个元素。这样能保证每个元素最终留在蓄水池中的概率都是k/n,其中n是数据流的总长度。需要说明这个概率是如何推导出来的,可能涉及到数学归纳法或者递推公式。 然后,应该给出具体的实现步骤。比如初始化蓄水池为前k个元素,然后从第k+1个元素开始遍历,生成随机数决定是否替换,替换时随机选择蓄水池中的一个位置。这里可能需要代码示例来帮助理解,比如用Python或伪代码展示算法流程。 还要比较不同情况下的应用,比如当k=1时的简化版本,以及如何处理大数据流。同时,可以提到算法的时间和空间复杂度,强调其空间效率高,只需O(k)的额外空间。 用户可能的疑问包括:为什么这个算法能保证等概率?如何处理动态数据流?有没有实际的应用案例?需要准备这些问题的答案,或者在介绍中提前解答。 另外,需要注意算法的限制和适用场景。比如,蓄水池抽样适用于数据流只能单向遍历一次的情况,如果数据可以多次访问,可能有更高效的抽样方法。同时,当k较大时,替换的概率计算可能需要优化,但通常k远小于n,所以影响不大。 最后,总结蓄水池抽样的优点,比如高效、节省内存,适用于日志处理、实时数据流分析等场景。可能举一些实际例子,比如从海量搜索日志中随机抽样查询进行分析,或者实时监控系统中抽取样本进行异常检测。</think>--- ### **蓄水池抽样算法(Reservoir Sampling)** #### **1. 问题背景** - **场景**:数据流长度未知或非常大,无法一次性存储全部数据,需从中等概率抽取 **k 个样本**。 - **目标**:每个元素被选中的概率为 **k/n**(n 为数据流总长度),且仅遍历一次数据流。 - **典型应用**:日志抽样、实时数据流分析、大规模数据库随机查询等。 --- #### **2. 算法核心思想** - **核心策略**:动态调整蓄水池(容量为k),按概率决定是否保留新元素。 - **关键步骤**: 1. **初始化**:将前k个元素直接放入蓄水池。 2. **遍历后续元素**:对第i个元素(i从k+1开始): - 以 **k/i** 的概率决定是否保留该元素。 - 若保留,随机替换蓄水池中的某个元素。 - **数学保证**:最终每个元素被选中的概率为 **k/n**。 --- #### **3. 算法推导(以 k=1 为例)** 假设数据流长度为n,证明每个元素被选中的概率为 **1/n**: - **第i个元素被选中**的概率 = **被选中的概率 × 后续不被替换的概率**。 - 选中概率:1/i。 - 不被替换的概率:i/(i+1) × (i+1)/(i+2) × ... × (n-1)/n = **i/n**。 - 最终概率:1/i × i/n = **1/n**。 - **推广到k个样本**:每个元素最终概率为 k/n。 --- #### **4. 算法实现** - **代码示例(Python)**: ```python import random def reservoir_sampling(data_stream, k): reservoir = [] # 初始化蓄水池 for i, item in enumerate(data_stream): if i < k: reservoir.append(item) else: # 生成 [0, i) 的随机整数,若 <k 则替换 j = random.randint(0, i) if j < k: reservoir[j] = item return reservoir ``` --- #### **5. 关键点分析** - **时间复杂度**:O(n),仅需一次遍历。 - **空间复杂度**:O(k),仅存储蓄水池。 - **随机性保证**:依赖均匀分布的随机数生成。 - **适用场景**: - 数据流长度未知(如实时日志)。 - 内存有限,无法存储全部数据。 --- #### **6. 扩展:分布式蓄水池抽样** - **场景**:数据分布在多个节点(如MapReduce任务)。 - **方法**: 1. 每个节点独立运行蓄水池抽样,得到本地k个样本。 2. 汇总所有节点的样本,再次运行蓄水池抽样,选出全局k个样本。 --- #### **7. 对比其他抽样方法** | **方法** | **优点** | **缺点** | |--------------------|------------------------------|------------------------------| | 蓄水池抽样 | 单次遍历,内存高效 | 仅适用于顺序访问数据流 | | 随机排序后取前k个 | 简单直观 | 需存储全部数据,不适用于大数据 | | 哈希分桶抽样 | 支持并行处理 | 需要设计均匀哈希函数 | -- #### **8. 应用案例** 1. **日志分析**:从TB级日志中随机抽取用户行为记录。 2. **推荐系统**:实时流中抽样用户点击数据更新模型。 3. **数据库查询**:对大规模表进行随机采样以估算统计量。 --- #### **9. 注意事项** - **随机数生成**:需保证均匀性,否则抽样结果有偏。 - **数据流结束**:最终蓄水池中的样本即为结果,无需后续调整。 - **动态数据流**:算法天然支持数据流持续输入的场景。 --- 蓄水池抽样通过巧妙的概率设计,在有限内存下实现了严格的等概率抽样,是处理海量数据流的核心随机化算法之一。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值