箱形图定义
箱形图(Box-plot)是统计学中一种常见的统计数图,由于其图形与箱子类似而得名,所以又有"箱线图"、"盒须图"、"盒式图"等名称。箱形图可以统计出单变量数据的离散程度,将数据的离散程度以及分布区间清晰直观地表现出来,同时可以突出异常数据值。箱形图作为一种重要的统计图表,在众多的学科和领域中都有着越来越多的应用。
它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。由于现实数据中总是存在各式各样地“脏数据”,也成为“离群点”,于是为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出,而盒图中的胡须的两级修改成最小观测值与最大观测值。这里有个经验,就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。
分位数
概率分布的分位数(分为点)
定义:分位数指的就是连续分布函数中的一个点,这个点对应概率p。若概率0<p<1,随机变量X或它的概率分布的分位数Za,是指满足条件p(X≤Za)=α的实数