机器学习（三）--关于分层采样的理解

最新推荐文章于 2024-08-06 22:06:11 发布

原创最新推荐文章于 2024-08-06 22:06:11 发布 · 2.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #sklearn #python

机器学习专栏收录该内容

34 篇文章

订阅专栏

分层采样是一种确保样本代表性的数据采样方法，尤其适用于存在明显群体差异的情况。例如，在学校调查中，按男女比例进行分层采样能准确反映学生群体特征。在Python中，可以使用`StratifiedShuffleSplit`进行分层采样，保持各层比例。在给定数据中，将数据分为训练集和测试集，确保每个集合内的比例与总体一致，以减少偏差并提高模型预测的准确性。

最近学到关于数据分层采样的内容，总结一下

分层采样的定义： 根据不同群体的比例在数据里通过比例进行采样，减少采样的误差，针对数据量过大时会显得没那么有意义，ps：小数据量有必要，大数据没必要

举例：比如取100个学生里，70%个男生，30%个女生，取有没有收藏笔记本的爱好，如果随机采样，会
有偏差，但如果按比例来调查，70%的男生，30%的女生，会符合学校的学生特征。

python 的分层采样

data = np.array(range(10))
traget = array([0, 0, 0,0, 0, 0, 0, 1, 1, 1])
from sklearn.model_selection import StratifiedSuffldSplit as ss
split = ss(n_split = 5, test_size = 0.4, random_state = 42)
#采样的组数， 测试比例大小，随机数值

for train_index, test_index in split.split(X,Y):
	print(target[train_inde], target[test_index])
'''[1 0 0 1 0 0] [0 0 0 1]
...[1 0 0 0 1 0] [0 0 1 0]
...[0 0 1 0 0 1] [0 0 0 1]
...[0 0 0 1 0 1] [1 0 0 0]
...[0 0 1 1 0 0] [0 0 1 0]'''