1
在机器学习中,有时我们会获得一整个数据集,而我们知道,在这一过程中分为测试集与训练集。而随机抽样法的定义是从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的概率被抽中。特点是:每个样本单位被抽中的概率相等,样本的每个单位是完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
data_dududu = pd.DataFrame(list(range(10)))
data_dududu
首先先生成0到9十个数字,然后将他们随机打乱
shuffled_indices = np.random.permutation(len(data_dududu))
shuffled_indices
接下来开始截取数据,将他们以1:4的比例截取为测试集,训练集。
test_indices = shuffled_indices[:test_set_size]#测试集从头开始截,截2个数
test_indices
train_indices = shuffled_indices[test_set_size:]#训练集从第3个数开始,截到完
train_indices
然后通过索引,将每个数字对应的数据读出来
data_dududu.iloc[test_indices]
data_dududu.iloc[train_indices]