常规异常值检测方式

本文探讨了正态分布数据的3西格玛准则及其应用,讲解了数值在不同标准差范围内的概率分布,并对比了非正态分布数据的箱线图分析方法,包括分位数计算及上下边界的确定。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

##正态假设检验
参考资料:https://blog.youkuaiyun.com/cyan_soul/article/details/81236124

###正态分布,可考虑采用3西格玛准则,(μ-3σ,μ+3σ)
3σ原则为
数值分布在(μ-σ,μ+σ)中的概率为0.6827
数值分布在(μ-2σ,μ+2σ)中的概率为0.9545
数值分布在(μ-3σ,μ+3σ)中的概率为0.9973
可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%.

#####非正态分布则考虑使用箱线图,计算分位数确定上下边界

##使用numpy中的percentile计算分位数
a = np.arange(15)

##计算四分之一分位数、四分之三分位数、中位数
Q1 = np.percentile(a, 25)
Q3 = np.percentile(a, 75)
median = np.percentile(a, 50)

上边界 = Q3 + 1.5(Q3- Q1)
下边界 = Q3 - 1.5(Q3- Q1)

#####绘制箱线图
参考资料:
##pandas自带
https://www.cnblogs.com/wwxbi/p/9032248.html

##seaborn
http://seaborn.pydata.org/examples/horizontal_boxplot.html

##计算均值标准差、分位数,主要针对标准正态分布
参考资料:https://blog.youkuaiyun.com/lanchunhui/article/details/80381367
from scipy.stats import norm
norm.cdf(3) - norm.cdf(-3) ##0.9973002039367398

转载于:https://my.oschina.net/kyo4321/blog/3098591

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值