最近学到关于数据分层采样的内容,总结一下
分层采样的定义: 根据不同群体的比例在数据里通过比例进行采样,减少采样的误差,针对数据量过大时会显得没那么有意义,ps: 小数据量有必要,大数据没必要
举例:比如取100个学生里,70%个男生,30%个女生,取有没有收藏笔记本的爱好,如果随机采样,会
有偏差,但如果按比例来调查,70%的男生,30%的女生,会符合学校的学生特征。
python 的分层采样
data = np.array(range(10))
traget = array([0, 0, 0,0, 0, 0, 0, 1, 1, 1])
from sklearn.model_selection import StratifiedSuffldSplit as ss
split = ss(n_split = 5, test_size = 0.4, random_state = 42)
#采样的组数, 测试比例大小,随机数值
for train_index, test_index in split.split(X,Y):
print(target[train_inde], target[test_index])
'''[1 0 0 1 0 0] [0 0 0 1]
...[1 0 0 0 1 0] [0 0 1 0]
...[0 0 1 0 0 1] [0 0 0 1]
...[0 0 0 1 0 1] [1 0 0 0]
...[0 0 1 1 0 0] [0 0 1 0]'''
如何运行
- 首先定义为5组数据
- 测试数据0.2 10* 0.4 = 4个数据
- 训练数据 6个数据
- 接下来对每组分层采样
- 训练数据 /正值 = 6 * 3/10 = 9/5 = 2 四舍五入
- 负值 = 6 * 7/10 = 21/5 = 4
- 测试数据 4 * 3/10 = ·1 正数
- 负数 = 3
输出的数据比例也是2:4,1:3
分层采样是一种确保样本代表性的数据采样方法,尤其适用于存在明显群体差异的情况。例如,在学校调查中,按男女比例进行分层采样能准确反映学生群体特征。在Python中,可以使用`StratifiedShuffleSplit`进行分层采样,保持各层比例。在给定数据中,将数据分为训练集和测试集,确保每个集合内的比例与总体一致,以减少偏差并提高模型预测的准确性。
2824

被折叠的 条评论
为什么被折叠?



