机器学习中训练集和测试集的划分秘籍大公开！

原创于 2025-06-27 14:36:25 发布 · 1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #数据集划分 #留出法 #python #K折交叉验证 #自助法

宝子们👋，在机器学习的奇妙世界里，训练集和测试集的划分那可是相当重要的一步，就像搭积木时选对合适的积木块一样关键🧩。今天就来和大家唠唠为啥要划分，以及常用的划分方法都有哪些😎。

🤔为啥要划分训练集和测试集？

想象一下，学生如果只复习做过的题目（训练集），却从未接触过新题型（测试集），那么他在真正的考试中大概率会考砸😱——这就是机器学习中的过拟合（Overfitting）问题！

1. 核心目的：评估泛化能力

训练集（Training Set）：用于模型学习数据规律（就像学生用课本学习）
测试集（Test Set）：用于独立评估模型在未知数据上的表现（就像用全新试卷模拟考试）

2. 不划分会导致什么问题？

过拟合陷阱：模型死记硬背训练数据中的噪声，无法适应新样本
盲目调参：没有测试集就无法判断模型是否真的有效，调参失去方向

📚常用划分方法

1. 留出法（Hold-Out）

划分原则

就像抽奖一样，把整个数据集随机分成两部分，一部分作为训练集，另一部分作为测试集🎁。比如，我们有 1000 条数据，可以随机选 700 条作为训练集，剩下的 300 条作为测试集。典型比例：7:3或8:2（训练集占比大）。

# Python代码示例（使用sklearn）
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,  # 测试集占20%
    random_state=42 # 固定随机种子保证可复现
)

优点

操作简单，就像搭积木一样轻松上手🧱。
计算速度快，对于大数据集来说，能节省不少时间🕙。

缺点

随机性大，就像抽奖一样，每次划分的结果可能都不一样，导致模型评估结果不稳定😕。
如果数据集本身分布不均匀，随机划分可能会导致训练集和测试集的数据分布不一致，影响模型的评估效果📉。

适用场景

数据量比较大的时候，因为计算速度快，能快速得到一个初步的模型评估结果📊。
对模型评估结果的稳定性要求不是特别高的时候。

2. K 折交叉验证（K-Fold Cross-Validation）

划分原则

把数据分成K份（K通常取5或10），轮流用其中1份当测试集，其余当训练集，最终取K次结果的平均值📈。比如 K = 5，就是把数据集分成 5 份，进行 5 次训练和测试。

from sklearn.model_selection import KFold

kf = KFold(n_splits=5, shuffle=True)
for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    # 训练并评估模型...

优点

能充分利用数据，每个数据点都有机会被用作训练集和测试集，评估结果更稳定可靠👍。
可以避免简单随机划分中数据分布不均匀的问题。

缺点

计算量比较大，因为要进行 K 次训练和测试，对于大数据集来说，可能会花费比较长的时间🕙。
K 的取值比较关键，如果 K 取得不合适，可能会影响评估结果。

适用场景

数据量不是特别大，但对模型评估结果的准确性要求比较高的时候📊。
想要更全面地评估模型在不同数据子集上的表现时。

3. 自助法（Bootstrapping）

划分原则

有放回地随机抽样构造训练集（一个样本可能被抽多次），未被抽中的样本作为测试集。特点：训练集约占原始数据63.2%，测试集占36.8%。

优点

适合极少量数据（如仅几百条）

缺点

改变了原始数据分布，可能引入偏差

适用场景

小数据集、集成学习（如随机森林）

📝高级场景：训练集+验证集+测试集

当模型需要反复调参时，仅用训练集和测试集不够！此时引入第三部分：

验证集（Validation Set）：用于调整超参数（如学习率、神经网络层数）
测试集仅用于最终评估，绝不参与调参！

划分比例建议（根据数据规模）：

数据规模	训练集	验证集	测试集	说明
小数据（<1万）	60%	20%	20%	保证验证/测试有足够样本
中数据（1-100万）	90%	5%	5%	验证/测试至少1万条
大数据（>100万）	98%	1%	1%	训练效率优先

📊总结对比

方法	优点	缺点	典型适用场景
留出法	简单快速，一次划分	结果不稳定，方差大	大规模数据初步验证
K折交叉	结果稳定，数据利用高	计算成本高，耗时	中小数据，模型调参
自助法	适合极小数据集	改变数据分布	小样本或集成学习