离群值处理方法

本文探讨了两种离群值处理方法:基于标准差(SD)法和基于MAD的中心距离计算法,这两种方法在数据预处理中用于识别和处理异常数据点,以提高数据分析的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录
  1. 基于标准差(SD)法
  2. 基于MAD的中心距离计算法
1.基于标准差(Standard2Deviations, SD)法
a为一组数的平均数,b为这组数的标准差,则超出[a-2b, a+2b]范围的值即被认为离群值。

总结
这种方法不是特别的靠谱,因为离群值的出现可能反过来很大程度影响平均数和标准差,所以平均数或者标准差受离群值的制约而使得这个检测方法不靠谱。

2.基于绝对离差中位数(Median Absolute Deviation, MAD)的中心距离计算法
(1)计算所有观察点的中位数median(X);
(2)计算每个观察点与中位数的绝对偏差值abs(X-median(X));
(3)计算(2)中的绝对偏差值的中位数,即MAD = median(abs(X - median(X)));
(4)将(2)得到的值除以(3)的值,得到一组基于MAD的
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值