DSS:可扩展且高效的分层抽样算法
1. 抽样基础与分层抽样概述
抽样的基本步骤包括从总体中提取具有代表性的子集,进行估计和实验,并将结果外推以了解总体特征。分层抽样是一种特殊的抽样方法,它将总体划分为不同的组,即层(同质的子组,组内元素彼此相似)。先将被调查总体的个体分配到各层,然后对每层独立应用无放回的常规抽样方法,如简单随机抽样(SRS)或系统抽样。
与SRS相比,分层抽样能获得更高的统计精度,因为具有相同属性的子组内的变异性低于整个总体。它通过减少抽样误差来提高样本的代表性,并且由于统计精度较高,分层抽样可以容忍比其他方法更小的样本量,有助于节省研究人员的时间和精力,在效率和准确性上都优于其他抽样方法。
然而,传统的分层抽样实现,如蓄水池抽样,并非为分布式计算环境设计。虽然已经提出了一些分布式实现,但它们要么在某些条件下无法生成统计上令人满意的答案,要么无法充分利用计算资源。
2. 相关工作
为了处理大规模数据集,研究人员设计了许多可扩展的算法。例如,Boyd等人研究了交替方向乘子法来解决分布式凸优化问题,Owen等人引入了Mahout来对大型数据集应用机器学习算法。但许多这些算法在不减小数据规模的情况下,无法在可接受的时间范围内生成结果。
为了降低存储和计算成本,同时保留原始数据的重要统计特性,研究人员提出了各种数据抽样算法。Gjoka等人实现了一种用于在线社交网络数据集的多图抽样方法,Kurant等人利用分层来生成加权图以进行高效的数据爬取和指标估计。但这些工作并非为分布式计算环境设计。
在分层抽样方面,已有许多适用于单机环境的方法,其中经典的是蓄水池抽样算法,它需要对整个数据集进行单
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



