【特征工程】一种异常值检测方法、原理、代码实现 (基于箱线图)

先介绍使用到的方法原理,也就是一种异常检测的方法。
首先要先了解箱线图。

箱线图

箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。 ——MBAlib 箱线图

先看一下什么是箱线图,下面这个是常见的箱线图样子。

箱线图1

具体含义如下,首先计算出第一四分位数(Q1)、中位数、第三四分位数(Q3)
中位数我们都知道,就是将一组数字按从小到大的顺序排序后,处于中间位置(也就是50%位置)的数字。
同理,第一四分位数、第三四分位数是按从小到大的顺序排序后,处于25%、75%的数字。

I Q R = Q 3 − Q 1 IQR=Q3-Q1 IQR=Q3Q1 ,那么 Q 3 + 1.5 ( I Q R ) Q3+1.5(IQR) Q3+1.5(IQ

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值