箱形图为什么能检测异常值,原理是什么?

本文详细介绍了箱形图的构成元素,包括最小值、下四分位数、中位数、上四分位数及最大值,并阐述了如何通过四分位距(IQR)确定异常值的上下限,帮助读者理解并应用箱形图进行数据异常值的识别。

 

总结:

异常值是用1.5IQR来推测的,IQR=Q3-Q1,是25%-75%之间的数值,

Q4-Q3理论上应该只有0.5个IQR,超过1.5个IQR,则说明数据比较异常了。

 

上限是非异常范围内的最大值。下限是非异常范围内的最小值。

首先要知道什么是四分位距如何计算的?

四分位距IQR=Q3-Q1,

那么上限=Q3+1.5IQR,下限=Q1-1.5IQR

 

具体数值计算:

https://baijiahao.baidu.com/s?id=1591167651227320027&wfr=spider&for=pc

 

两侧的是max值和min值,异常值线并不显示。

以下是箱形图的具体例子:

图2.例子图2.例子

这组数据显示出:

  • 最小值(minimum)=5

  • 下四分位数(Q1)=7

  • 中位数(Med--也就是Q2)=8.5

  • 上四分位数(Q3)=9

  • 最大值(maximum)=10

  • 平均值=8

  • 四分位间距(interquartile range)={\displaystyle Q3-Q1}=2 (即ΔQ)

在区间 Q3+1.5ΔQ, Q1-1.5ΔQ 之外的值被视为应忽略(farout)。

  • farout: 在图上不予显示,仅标注一个符号∇。

  • 最大值区间: Q3+1.5ΔQ

  • 最小值区间: Q1-1.5ΔQ

最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.

  • mild outlier = 3.5

  • extreme outlier = 0.5

https://baike.baidu.com/item/%E7%AE%B1%E5%BD%A2%E5%9B%BE/10671164?fr=aladdin

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值