python fit transform_sklearn库中的fit_transform()和transform()

本文通过实例解释了在机器学习中为何不能对测试集使用`fit_transform()`,而应该使用`transform()`。`fit_transform()`适用于训练集,因为它首先计算参数,然后应用转换。如果对测试集使用,可能导致错误的分类结果,因为测试集的参数基于训练集。正确的做法是先对完整数据集进行`train_test_split()`,然后分别对训练集进行`fit_transform()`,对测试集进行`transform()`,以保持数据衡量的一致性,防止过拟合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在标准化时,在无数的教科书上常见如下代码:

from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

X_train = ss.fit_transform(X_train)

X_test = ss.transform(X_test)

先看一些方法的作用:

fit(): Method calculates the parameters μ and σ and saves them as internal objects.

transform(): Method using these calculated parameters apply the transformation to a particular dataset.Transform(): Method using these calculated parameters apply the transformation to a particular dataset.

而fit_transform()相当于先fit()再transform(),fit_transform(trainData)对部分数据先拟合fit,找到该部分数据的整体指标,如均值、方差、最大值、最小值等等(根据具体转换的目的),然后对该trainData进行转换transform,从而实现数据的标准化等等。

问题1:最后一行代码为什么不能写成:X_test = ss.fit_transform(X_test)?

生活中我们经常看到某些例子,比如学校运动会100米冠军的成绩拿到奥运会决赛场上极有可能是最后1名。一次统考,某所学校某班学习成绩第1名的同学可能到另外一所学校的某个班,或许连前30名

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值