Pandas 深入学习【4】train_test_split函数

原创于 2025-09-22 11:10:40 发布 · 196 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

在机器学习中，train_test_split函数用于将数据集划分为训练集和测试集。这个函数中的random_state参数非常重要，它决定了数据划分的随机性。

random_state的作用

random_state参数用于设置随机种子。随机种子是一个整数，它控制随机数生成器的初始化。通过设置相同的随机种子，可以确保每次运行代码时，数据集的划分结果是相同的。这对于实验的可重复性非常重要。

使用random_state参数：

from sklearn.model_selection import train_test_split
import numpy as np
# 生成示例数据
X = np.linspace(1, 8, 8).reshape(4, 2)
y = [1, 0, 1, 1]
# 使用random_state参数划分数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=2)
print("训练集:", X_train)
print("测试集:", X_test)

不设置random_state参数

不设置random_state参数，或者将其设置为None，每次运行代码时，数据集的划分结果都会不同。这种情况下，数据划分是完全随机的。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)

print("训练集:", X_train)

print("测试集:", X_test)

random_state参数提供了一种控制数据分割随机性的方法。通过固定这个参数，可以确保不同实验之间的一致性，从而使实验结果可复现。

random_state值的不同会对决策树模型产生以下影响：

决策树的随机性：决策树的生成是基于不纯度度量的，如果样本混合程度相似，则生成的树结构可能是不同的。通过更改random_state的值，可以得到不同的树结构。
训练集和测试集划分：在使用决策树时，我们经常需要将数据集划分为训练集和测试集。random_state的值会影响划分的随机性，如果不设置random_state的值，每次划分都是随机的，导致得到不同的训练集和测试集。而如果设置了random_state的值，可以保证每次划分是相同的。
特征的选择：决策树在每个节点的决策过程中，会根据某些标准选择一个最佳的特征进行划分。random_state的值会影响这一选择过程中的随机性，即使数据和模型参数相同，不同的random_state值可能会给出不同的特征选择结果。