python交叉验证（cross_validation.train_test_split）

最新推荐文章于 2024-06-11 22:12:25 发布

原创最新推荐文章于 2024-06-11 22:12:25 发布 · 2.8k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习

本文详细介绍了如何使用交叉验证方法将数据集划分为训练集和测试集，以评估机器学习模型的性能。通过随机拆分数据，确保了模型的泛化能力，避免过拟合现象。关键参数如test_size和random_state的作用也被深入解析。

二、将数据分为训练，测试集进行交叉验证
使用训练集进行训练，在用测试集验证训练结果是否正确，通过这个方法验证数据
X_train,X_test,y_train,y_test=cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)
避免数据拟合
#该方法将原始数据打乱得到新顺序的训练数据和测试数据（将数组或矩阵随机拆分成训练子集和测试子集）
X_train，y_train：得到的训练数据。
X_test， y_test：得到的测试数据。
训练集是用来训练算法（算法进行分类用的数据），而测试集是用来验证算法的
train_data：被划分的样本特征集,
train_target：被划分的样本标签（该数据每一个都与与train_data中数据存在对应）
test_size：如果是浮点数，在0-1之间，表示样本占比；如果是整数的话就是样本的数量如0.7表示百分之30的数据用于做训练集百分之70的数据用来测试集
random_state：是随机数的种子。
随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样（该算法可以将数据打乱然后取出test_size的数据进行训练，为0时打乱数据，默认为0，为1不打乱）