Kaggle Learn 数据泄露(data leakage)的几个例子

本文探讨了数据泄露问题,包括目标泄露和训练测试污染,通过几个例子,如生病与吃药、原料消耗与产值、病人与感染率、房价与售价,揭示了数据泄露如何影响预测模型的准确性,并提出了正确处理方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据泄露

数据泄露是指,在训练数据中包含目标信息,但在预测时没有可用的类似数据。这会使得训练数据(或者验证数据)效果比较好,但实际生产(预测)时效果特别差。

有两种泄露类型:target leakage(目标泄露)train-test contamination(训练测试污染)

当测试集上的预测结果准确率特别高,比如95%以上时,要检查一下是否数据泄露了。

target leakage

预测包含未来才知道的数据时,会发生目标泄露。
在这里插入图片描述

train-test contamination

比如在切分训练集 / 测试集之前,就使用了如均值插值法处理缺失值,那么训练集中其实就已经包含了测试集的信息。

例子

生病与吃药

用是否吃药,来预测是否会得病。

**数据泄露:**生病的才会吃药,所以用是否吃药来预测是否得病贼准。

原料消耗与产值

用当月皮革使用量,来预测鞋带的需求量。

**数据泄露:**咋一看没有直接联系,其实,皮革使用量 -> 鞋子产量 -

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值