文章大纲
简介
简单抽样方法都有哪些?
简单抽样一般分为:
RandomSampling - 随机采样
StratifiedSampling - 分层采样
WeightedSampling - 权重采样
计算逻辑
-
随机采样
系统随机从数据集中采集样本,随机种子的输入值不同导致采样结果不同。 -
分层采样
分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。这种方法的优点是,样本的代表性比较好,抽样误差比较小。缺点是抽样手续较简单随机抽样还要繁杂些。定量调查中的分层抽样是一种卓越的概率抽样方式,在调查中经常被使用。
选择分层键列,假设分层键列为性别,其中男性与女性的比例为6:4,那么采样结果的样本比例也为6:4。 -
权重采样
选择权重值列,假设权重值列为班级,样本A的班级序号为2,样本B的班级序号为1,则样本A被采样的概率为样本B的2倍。 -
采样数
最终的采样数依赖于采样量计算方式,假设原始数据集