离群值检测

本文介绍了离群值的概念和分类,详细讲解了莱茵达准则、箱线图和基于近邻判断的离群值检测方法,并通过Python示例展示了箱线图的绘制。同时,讨论了欧式距离在离群值检测中的局限性和马氏距离的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

离群值检测

离群值

outlier:样本中的一个或几个观测值,它们离其他观测值较远,暗示它们可能来自不同的总体。

离群值分类

  • 总体固有变异性的极端表现,这类离群值与样本的其余观测值属于统一总体;
  • 由于试验条件和试验方法的偶然偏离所产生的结果,或产生与观察、记录、计算中的失误,这类离群值与样本中其余观测值不属于统一总体。

数学小知识

方差
1277221-20181129090639930-1681595658.png

标准差
1277221-20181129090658169-497830330.png

​ 标准差能反映一个数据集的离散程度。

离群值检测方法

一、莱茵达准则(拉依达准则)
  • Z-score标准化辅助识别离群值,Z-score值表示原始样本x和样本均值μ之间的距离,而且这个距离以标准差σ为单位进行计算:Z-score(x)=(x-μ)/σ

  • 得到样本的Z-score值后,通常将满足条件|Z-score(x)|>3的样本视为离群值(3σ法)。<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值