数据集shuffle的重要性

最新推荐文章于 2025-07-28 15:19:24 发布

转载最新推荐文章于 2025-07-28 15:19:24 发布 · 3.7k 阅读

18 ·

CC 4.0 BY-SA版权

原文链接：https://juejin.im/post/5c6b989bf265da2ddd4a5261

文章标签：

#人工智能 #数据库

深度学习项目，在训练之前，一般均会对数据集做shuffle，打乱数据之间的顺序，让数据随机化，这样可以避免过拟合。那为什么shuffle可以有效的避免过拟合？以猫狗分类为例，假如数据集是

Dog，Dog，Dog，... ，Dog，Dog，Dog，Cat，Cat，Cat，Cat，... ，Cat，Cat
复制代码

所有的狗都在猫前面，如果不shuffle，模型训练一段时间内只看到了Dog，必然会过拟合于Dog，一段时间内又只能看到Cat，必然又过拟合于Cat，这样的模型泛化能力必然很差。那如果Dog和Cat一直交替，会不会就不过拟合了呢？

Dog，Cat，Dog，Cat，Dog ，Cat，Dog，...
复制代码

依然会过拟合，模型是会记住训练数据路线的，为啥呢？

首先我们需要明白固定的数据集顺序，意味着给定迭代步，对应此迭代步的训练数据是固定的。假如目标函数是J=f(w1, w2)，使用梯度下降优化J。给定权重取值w1、w2和迭代步step的情况下，固定的数据集顺序意味着固定的训练样本，也就意味着权值更新的方向是固定的，而无顺序的数据集，意味着更新方向是随机的。如下图中的A点，如果固定的更新方向是红色箭头方向，则很难收敛到最优点，而如果更新方向是随机的，则有可能就沿着白色箭头方向收敛到最优点。

所以固定的数据集顺序，严重限制了梯度优化方向的可选择性，导致收敛点选择空间严重变少，容易导致过拟合。

所以模型是会记住数据路线的，所以shuffle很重要，一定要shuffle。

转载于:https://juejin.im/post/5c6b989bf265da2ddd4a5261