关于python中正态化数据和分离数据集的先后顺序问题

最新推荐文章于 2025-07-19 22:23:04 发布

转载最新推荐文章于 2025-07-19 22:23:04 发布 · 603 阅读

自学专栏收录该内容

51 篇文章

订阅专栏

探讨在机器学习中，数据预处理的正确步骤应该是先划分数据集再进行正态化，而不是相反。通过对比两种方法，解释了为何先划分后正态化能避免过拟合，提高模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python机器学习过程中需要将一些数据正态化，那么是先分离数据集，然后将再将数据集正态化呢，还是反过来执行呢?
参考网上别的作者，有如下解释(文章选择链接如下)：

https://blog.youkuaiyun.com/u012328159/article/details/84669266

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 正确方法  --->>> 先分离，再转换
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=7)
ss = StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.transform(x_test)

# 错误方法 --->>>  先转换， 再分离
ss = StandardScaler()
x = ss.fit_transform(x)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=7)

第一种先划分再在训练集上使用fit_transform，然后在对测试集用transform是正确的。但第二种方法先对所有样本标准化再划分则是错误的。举个例子说明这个问题：假设我们的样本中有异常值，而这些异常值被划分到了测试集中，那么第一种方法，异常值对均值和方差没有任何影响。而第二种方法要先计算所有样本的均值和方差，则异常值产生了影响。第二种方法会造成类似过拟合的现象，在测试集上准确率也显得很高，但是如果换做其他测试样本，那么泛化性能将差的多。

本选选自网上一位博主，虽然现在看得还是不太懂，不过还是谢谢有人做出了解释。