25、数据准备与处理:从基础到高级技巧

数据准备与处理:从基础到高级技巧

1. 数据缩放与范围问题

在数据处理中,我们常常希望将输入数据缩放到 [0,1] 范围,目的是让训练过程尽可能高效,同时避免数值问题。不过,实际操作中可能会出现一些特殊情况。比如,当原始数据中的最小值进行转换后,可能会得到一个负数,超出了 [0,1] 范围。同样,如果遇到非常炎热的夜晚,得到的正温度值转换后可能会大于 1,也超出了这个范围。

但这些情况都是可以接受的。一旦系统训练完成,我们可以给它输入任意值,它会计算出相应的输出。当然,我们仍然需要关注数据的合理性。例如,如果系统预测明天的汽车数量为负数,我们显然不能基于这个数字来制定计划。

2. 交叉验证中的信息泄露问题

2.1 信息泄露的危害

在构建数据转换时,如果不谨慎操作,就可能出现信息泄露的情况。即一些本不应包含在转换中的信息意外地混入,影响了数据的转换。这不仅会导致数据转换不符合我们的预期,更糟糕的是,在评估测试数据时,系统可能会获得不公平的优势,使我们高估其准确性。我们可能会误以为系统性能良好可以部署,但实际使用时却发现性能远不如预期。

2.2 交叉验证中的信息泄露示例

在交叉验证中,我们通常会将初始训练集的一部分作为临时验证集,然后用剩余数据训练新的学习器,最后用验证集评估学习器。

如果我们错误地在分析输入数据构建转换时,将所有折(fold)的数据都包含在内,就会出现信息泄露。例如,我们要对训练集中的所有特征进行缩放,使其范围在 0 到 1 之间。假设第一个折中的最小和最大特征值为 0.01 和 0.99,而其他折中的值都在这个范围内。当我们将所有折的数据作为一个整体进行

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值