箱线图统计学知识
上限值:Q1-1.5×IQR
上相邻值:距离上限值最近的值
须线:上下分位数各自与上下相邻值的距离
上四分位数(Q1):一组数据按顺序排列,从小至大第25%位置的数值
中位数:一组数据按顺序排列,从小至大第50%位置的数值
中位线(IQR):Q3-Q1上四分位数至下四分位数的距离
下四分位数(Q3):一组数据按顺序排列,从小至大第75%位置的数值
下相邻值:距离下限值最近的值
下限值:Q3+1.5×IQR
离群值(异常值):一组数据中超过上下限的真实值

计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)Q3-Q1
异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。 即在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。
极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。
温和异常值:1.5倍IQR开外 极端异常值:3倍IQR开外
使用matplotlib绘制箱线图
plt.boxplot(x, notch=None, sym=None, vert=None,
whis=None, positions=None, widths=None,
patch_a

本文深入探讨了箱线图的统计学原理,包括上四分位数Q1、中位数、下四分位数Q3、四分位数差IQR以及异常值的定义。通过计算IQR确定上下限值,识别异常点,并介绍了如何使用matplotlib绘制箱线图,展示数据分布情况。此外,还讲解了如何判断和表示不同类型的异常值,包括温和异常值和极端异常值。
最低0.47元/天 解锁文章
1791





