机器学习(三)--关于分层采样的理解

分层采样是一种确保样本代表性的数据采样方法,尤其适用于存在明显群体差异的情况。例如,在学校调查中,按男女比例进行分层采样能准确反映学生群体特征。在Python中,可以使用`StratifiedShuffleSplit`进行分层采样,保持各层比例。在给定数据中,将数据分为训练集和测试集,确保每个集合内的比例与总体一致,以减少偏差并提高模型预测的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近学到关于数据分层采样的内容,总结一下

分层采样的定义: 根据不同群体的比例在数据里通过比例进行采样,减少采样的误差,针对数据量过大时会显得没那么有意义,ps: 小数据量有必要,大数据没必要

举例:比如取100个学生里,70%个男生,30%个女生,取有没有收藏笔记本的爱好,如果随机采样,会
有偏差,但如果按比例来调查,70%的男生,30%的女生,会符合学校的学生特征。

python 的分层采样

data = np.array(range(10))
traget = array([0, 0, 0,0, 0, 0, 0, 1, 1, 1])
from sklearn.model_selection import StratifiedSuffldSplit as ss
split = ss(n_split = 5, test_size = 0.4, random_state = 42)
#采样的组数, 测试比例大小,随机数值

for train_index, test_index in split.split(X,Y):
	print(target[train_inde], target[test_index])
'''[1 0 0 1 0 0] [0 0 0 1]
...[1 0 0 0 1 0] [0 0 1 0]
...[0 0 1 0 0 1] [0 0 0 1]
...[0 0 0 1 0 1] [1 0 0 0]
...[0 0 1 1 0 0] [0 0 1 0]'''

如何运行

  • 首先定义为5组数据
  • 测试数据0.2 10* 0.4 = 4个数据
  • 训练数据 6个数据
  • 接下来对每组分层采样
  • 训练数据 /正值 = 6 * 3/10 = 9/5 = 2 四舍五入
  • 负值 = 6 * 7/10 = 21/5 = 4
  • 测试数据 4 * 3/10 = ·1 正数
  • 负数 = 3

输出的数据比例也是2:4,1:3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东哥aigc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值