箱型图分析原理及Python例程
一、箱型图分析原理
箱型图可以通过程序设置一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值则识别为异常值,箱型图如下图所示:
首先我们定义下上四分位和下四分位:
上四分位我们设为 U,表示的是所有样本中只有1/4的数值大于U ,即从大到小排序时U处于25%处;
同理,下四分位我们设为 L,表示的是所有样本中只有1/4的数值小于L,即从大到小排序时L处于75%处。
然后我们定义上界和下界:
我们设上四分位与下四分位的插值为IQR,即:IQR=U-L
上界设为 U+1.5IQR ,下界设为: L - 1.5IQR
箱型图选取异常值比较客观,在识别异常值方面有一定的优越性。
二、箱型图分析Python例程
设数据为1454*609维数据,识别为异常值后作差值处理,例程为:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.read_csv("D:\ML/data.csv",index_col='user_

本文介绍了箱型图分析原理,用于识别数据中的异常值。上四分位(U)位于排序后25%的位置,下四分位(L)位于75%的位置。IQR(四分位距)为U-L,异常值定义为大于U+1.5IQR或小于L-1.5IQR的数值。接着,文章提供了1454*609维数据的Python箱型图分析及异常值处理的示例代码。

最低0.47元/天 解锁文章
1074

被折叠的 条评论
为什么被折叠?



