最近学到关于数据分层采样的内容,总结一下
分层采样的定义: 根据不同群体的比例在数据里通过比例进行采样,减少采样的误差,针对数据量过大时会显得没那么有意义,ps: 小数据量有必要,大数据没必要
举例:比如取100个学生里,70%个男生,30%个女生,取有没有收藏笔记本的爱好,如果随机采样,会
有偏差,但如果按比例来调查,70%的男生,30%的女生,会符合学校的学生特征。
python 的分层采样
data = np.array(range(10))
traget = array([0, 0, 0,0, 0, 0, 0, 1, 1, 1])
from sklearn.model_selection import StratifiedSuffldSplit as ss
split = ss(n_split = 5, test_size = 0.4, random_state = 42)
#采样的组数, 测试比例大小,随机数值
for train_index, test_index in split.split(X,Y):
print(target[train_inde], target[test_index])
'''[1 0 0 1 0 0] [0 0 0 1]
...[1 0 0 0 1 0] [0 0 1 0]
...[0 0 1 0 0 1] [0 0 0 1]
...[0 0 0 1 0 1] [1 0 0 0]
...[0 0 1 1 0 0] [0 0 1 0]'''
如何运行
- 首先定义为5组数据
- 测试数据0.2 10* 0.4 = 4个数据
- 训练数据 6个数据
- 接下来对每组分层采样
- 训练数据 /正值 = 6 * 3/10 = 9/5 = 2 四舍五入
- 负值 = 6 * 7/10 = 21/5 = 4
- 测试数据 4 * 3/10 = ·1 正数
- 负数 = 3
输出的数据比例也是2:4,1:3