评估机器学习中的训练-测试集划分策略：超越基础

最新推荐文章于 2025-12-08 20:30:48 发布

原创最新推荐文章于 2025-12-08 20:30:48 发布 · 494 阅读

5 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#机器学习 #人工智能

榛樿鍒嗙被专栏收录该内容

852 篇文章

订阅专栏

原文：towardsdatascience.com/evaluating-train-test-split-strategies-in-machine-learning-beyond-the-basics-c3e84b58ddce

通过这篇文章，我想探讨一个经常被提问者和回答者忽视的问题：“你如何将数据集划分为训练集和测试集？”

当处理一个监督问题时，通常的做法是将数据集分成（至少）两部分：训练集和测试集。训练集用于研究现象，而测试集用于验证学习到的信息是否可以在“未知”数据上复制，即之前阶段不存在的数据。

许多人通常遵循标准、明显的途径来做出这个决定。常见的、令人不感兴趣的答案是：“我随机划分可用数据，保留 20%到 30%作为测试集。”

那些更进一步的人会加入分层随机抽样的概念：即在保持一个或多个变量固定比例的同时随机抽样。想象一下，我们处于一个二元分类场景中，并且有一个具有 5%先验概率的目标变量。在目标变量上分层随机抽样的意思是在训练集和测试集中保持目标变量先验的 5%比例。

这种推理有时是必要的，例如，在非常不平衡的分类场景中，但这并不会给这个问题增添多少兴奋感。

这个问题比看起来更难，正确的答案来自平凡：“这取决于。”

为了简单起见，让我们继续在二元分类场景中讨论。

你是否曾经需要训练一个算法来预测一个可变现象并使其进化？

在现实世界场景中划分的复杂性

想象一下需要创建一个能够预测购买产品倾向的算法。在这种情况下，区分真实与个人、主观与客观是困难的。想象一下有一个提供消费者信息的数据库。认为一些消费者在购买或不购买你的产品时行为不同是奇怪的，这是正常的，因为可用的数据可能无法捕捉到我们想要建模的决策的所有潜在动机。换句话说，我们是在说一些因素可能是外生的，甚至是伪随机的。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/68249424448f902ef7cf7a3e41a3c4ae.png

在 Midjourney 中创建的图像

现象本身取决于市场，因此是可变的。如果竞争对手大幅降低价格会发生什么？如果新产品开始抢占市场份额会发生什么？如果产品过时，其消费逐渐开始下降会发生什么？

我有一个好消息要告诉你：尽管有这么多坏消息，你仍然可以做一些好事来支持你的业务并创建一个性能良好的模型，但你需要采取正确的预防措施。

一个没有耐心的读者可能会想：但这一切与训练集和测试集之间的划分有什么关系呢？它与这一点有很大关系，但在连接所有这些点之前，让我先对测试集的概念进行一下哲学思考。

测试集应该尽可能接近模型在生产中遇到的真实数据集。因此，它应该作为最后的防线，直到所有最隐蔽的疑虑都得到解决。在测试集上良好的表现应该让我们在使用模型后能够安心入睡，因此它应该构建来为我们准备生产部署的目标。

一种可能的策略可能是根据时间来划分训练集和测试集。例如，将最后两个月留给测试集。这种推理基于这样一个概念，即前几个月不可避免地代表了生产阶段将到达的真实数据的最佳代表。可能合理地认为，最近可用的数据与未来我们将面对的未知数据最为接近。然而，这种策略并非没有缺陷。以这种方式解决问题会在模型评估中引入时间扭曲。

让我们考虑一个极端案例，比如一个强烈季节性的现象。想象一下冰淇淋销售的历史序列。完全依赖最后可用的几个月意味着做出低效的决策。风险是倾向于适应之前时刻的模型，而不是一个更好的泛化模型。想象一下将夏季月份留在测试集中的时间划分；风险是倾向于预测高于平均值的模型，反之亦然在冬季期间。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/788c3a3f773f948bbbad3b0010c88c6f.png

Midjourney 创建的图像

这是因为，对于每一种季节性现象，最初的假设不再成立。在这种情况下，我们的数据集的最后时刻并不一定是最接近生产数据的。可能在这种情况下，最接近生产数据的数据可能是前一年或前一个季节的数据。在这种情况下，我更喜欢通过按时间分层现象来抽样，以评估不同时间组件的性能。