疑问:数据清洗过程中的“归一化”、“标准化”等等去量纲的操作应该在数据集划分前还是在数据集划分后?

本文讨论了数据集划分的重要性,特别是训练集和测试集的随机划分。当样本量足够大时,训练集与测试集能保持相同的数据分布,此时即使测试集中包含部分训练集信息,其对模型测试效果的影响也可忽略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问:如题。

找到的相关解答:应该数据集划分后,不然测试集里面实际上是包含了训练集的信息的,这会影响模型的测试效果。但其实当样本量足够大的时候,随机划分的训练集和测试集其实是有相同的分布的,所以理论上是可以忽略上面说到的东西的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值