以下是Duke Coursera Inferential Statistics的笔记
- 本意:在没有别人的帮助下,完成一个不可能的任务
- 统计例子:只用样本的数据来估算一个总体参数
- Bootstrapping 流程:
- 取一个bootstrap sample:从一个从原始sample中抽取一个与其大小一致的随机sample(过程中会放回取到的data)
- 例如,原始sample是(1,2,3,4,5),那么一个可能的随机sample是(1,1,2,3,3)。
- 为什么采样后会放回?
- 因为我们是用替换抽样,所以每个样本都会与另一个略有不同,从而产生一个略有不同的样本统计。如果我们不进行替换,那么我们会一遍又一遍地得到同样的样本,同样的中位数。
- 计算bootstrap statistic:在bootstrap sample上计算得到的mean,median等等
- 重复前面两步以得到一个bootstrap分布(一个关于bootstrap statistic的分布)
- 取一个bootstrap sample:从一个从原始sample中抽取一个与其大小一致的随机sample(过程中会放回取到的data)
- 任务:估算population的median
- Percentile方法
- Standard Error方法 (更准确)
- Bootstrap 限制
- 没有什么严格的要求(例如CLT会要求独立等等)
- 如果bootstrap distribution极度稀疏或者往一边偏,那么bootstrap interval会不可靠
- 仍然需要一个具有代表性的sample
- Bootstrap vs. Sampling distribution
- Bootstrap是从sample中采样(会放回)
- Sampling distribution是从population中采样(会放回)
- 都是sample statistics的分布
文章介绍了在没有全面数据的情况下,如何使用Bootstrap方法通过样本数据估计总体参数。Bootstrap涉及到从原始样本中进行有放回的随机抽样以创建新的样本,计算这些样本的统计量,并形成一个bootstrap分布。这种方法对于估算populationmedian等参数特别有用,且不受严格的前提条件限制,但当分布异常时可能导致估计不准确。Bootstrap与samplingdistribution相区别,前者是从样本中进行有放回抽样,而后者则从总体中抽样。
2260

被折叠的 条评论
为什么被折叠?



