[抽样技术]--自助法--小样本估计

本文通过实例演示了如何利用自助法进行小样本估计,通过50000次重抽样,展示了数据均值的稳定性及方差的减小。
[抽样技术]--自助法--小样本估计

  自助法就是在一个小样本里进行可放回的重复抽样

  下面举一个例子:
  
  datas = RandomVariate[NormalDistribution[0, 1], 15];
    我们生成15个服从(0,1)正太分布的随机数

   看一下均值和置信区间
  
  然后我们使用进行50000次重抽样
 
  datamean = Table[Mean[RandomChoice[datas, Length[datas]]], 50000];
  p1 = Histogram[datamean, Automatic, "PDF"]


我们看一下这样得到数据的均值和方差

可以看到,虽然均值没有变化太多,但是方差已经明显变小了。

以上,所有
2016/10/28



### Bootstrapping 自助抽样的概念与原理 Bootstrapping(自助抽样)是一种非参数统计方,主要用于估计统计量的抽样分布。其核心思想是从原始数据样本中通过有放回抽样生成大量重抽样数据集。这些重抽样数据集的大小与原始样本一致,通过多次抽样,可以模拟原始样本的分布特性,并进一步估计统计量(如均值、方差、置信区间等)的变异性。 这种方的关键在于“有放回抽样”,即在每次抽样中,原始样本中的每个观测值都有相同的被抽中概率,并且可以被多次选中。这种抽样方式能够产生多样化的样本组合,从而更准确地反映总体分布的不确定性[^3]。 ### Bootstrapping 的应用场景 1. **置信区间估计**:当传统方(如正态分布假设下的置信区间计算)不适用时,自助可以用于构建统计量(如均值、中位数、回归系数等)的置信区间。 2. **假设检验**:自助可用于构造检验统计量的抽样分布,从而进行非参数假设检验。 3. **模型评估**:在机器学习中,自助可用于评估模型的稳定性,如通过自助抽样计算模型参数的标准误或置信区间。 4. **小样本数据分析**:当样本量较小且分布未知时,自助提供了一种有效的统计推断手段。 5. **复杂统计模型的推断**:在传统解析方难以求解的情况下,如非线性模型、复杂回归模型等,自助可辅助进行统计推断。 ### Bootstrapping 在统计学中的意义 Bootstrapping 是现代统计学的重要创新之一,尤其在计算能力大幅提升的背景下,其应用范围和影响力不断扩大。该方不依赖于对数据分布的强假设,因此在实际应用中具有很高的灵活性和实用性。它与反事实因果推理、多层模型、正则化方等并列为过去半个世纪最重要的统计思想之一[^2]。 此外,自助是重采样技术的重要组成部分,与置换检验(permutation test)等方共同构成了基于模拟的统计推断体系。通过比较自助、置换检验与传统t检验的结果,可以更好地理解不同方在特定数据集下的适用性和稳健性[^4]。 ### 示例代码:使用 Bootstrapping 估计均值的置信区间 ```python import numpy as np # 原始样本数据 data = np.array([23, 25, 28, 29, 30, 32, 35, 37, 40, 42]) # 自助抽样次数 n_bootstrap = 10000 # 存储每次抽样的均值 bootstrap_means = [] # 进行自助抽样 for _ in range(n_bootstrap): sample = np.random.choice(data, size=len(data), replace=True) bootstrap_means.append(np.mean(sample)) # 计算95%置信区间 ci_lower, ci_upper = np.percentile(bootstrap_means, [2.5, 97.5]) ci_lower, ci_upper ``` 运行上述代码将输出一个基于自助估计的95%置信区间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值