42、机器学习中的数据异常值处理与可视化探索

机器学习中的数据异常值处理与可视化探索

1. 异常值:现实世界的陷阱

在数据探索过程中,许多看似简单的概念在现实中实则更为微妙。以异常值为例,我们以往对其定义习以为常,在之前的认知里,异常值是“相对于大多数数据而言,数值过高或过低”,这种异常值可在箱线图中轻松观察到,即位于中位数上下 1.5 倍四分位距(IQR)之外的圆圈所代表的值,这些被称为 Tukey 异常值。然而,这个定义略显狭窄,异常值其实是相对于数据集中其他值而言不寻常的值,不一定是高或低,只是“不寻常”。

异常值的判断往往取决于视角。例如,在一个包含路牌图像的假设数据集中,大多数停车标志是红色的,那么黄色、蓝色的停车标志以及“前方停车”标志显然是异常值,但还有一些其他奇怪之处,如带有手图案的停车标志、有额外文字的标志,以及标志字体和边框有细微变化的情况。此外,停车标志在纯色白色背景和自然景观背景下的差异,或者对于来自其他国家的人来说,所有这些可能都不寻常,都会被视为异常值。

异常值可分为“真实”异常值和“错误”异常值。“错误”异常值是记录数据时产生的错误,如将某人的财富记录为 1 万亿美元而非 10 亿美元,这类异常值容易检测和修正;而“真实”异常值,如马斯克的巨额财富,则较难处理。通常,尝试对可解释的异常值进行建模能使模型更稳健,而对“错误”异常值建模通常只会增加噪声,削弱模型性能。

在数据探索中遇到异常值时,最重要的是考虑将其纳入训练数据是否会最终提高或降低学习算法执行所需任务的能力,这涉及到模型的泛化能力。处理异常值没有一种通用的方法,删除异常值是常见策略,但可能会丢弃重要信息。其他方法包括收集更多关于罕见事件的数据、将异常值分组或对值进行上限处理等。

异常值的判断关键在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值