四分位数是描述数据分布的统计量,将一组 有序数据 分为四个等份,每部分包含约25%的数据点。它是分位数的一种特例(四分位即25%分位),常用于识别数据的集中趋势、离散程度和异常值。
1. 核心四分位数
- Q1(第一四分位数):
数据中 25% 的值小于等于Q1,反映数据的较低部分分布。 - Q2(第二四分位数):
即 中位数(Median),50%的数据小于等于Q2,代表数据的中等水平。 - Q3(第三四分位数):
数据中 75% 的值小于等于Q3,反映数据的较高部分分布。
2. 计算方法
方法一:基于位置的公式(常用)
假设有 n个有序数据(从小到大排列):
- Q1的位置 = 41(n+1)
若为小数,则按相邻两数的线性插值计算。 - Q2的位置 = 42(n+1)=2n+1
- Q3的位置 = 43(n+1)
示例:数据集 [3, 7, 8, 10, 12, 15, 18, 21](n=8)
- Q1位置 = 49=2.25 → 第2个数(7) + 0.25×(第3个数8 - 第2个数7) = 7.25
- Q2位置 = 29=4.5 → (10 + 12)/2 = 11
- Q3位置 = 427=6.75 → 15 + 0.75×(18 - 15) = 17.25
方法二:Excel/编程中的算法
不同工具可能采用略有差异的插值方法(如PERCENTILE.INC vs PERCENTILE.EXC)。
3. 四分位距(IQR)
- 定义:IQR = Q3 - Q1,表示中间50%数据的离散程度。
- 用途:
- 识别异常值:通常将
< Q1 - 1.5×IQR或> Q3 + 1.5×IQR的值视为异常值。 - 箱线图(Box Plot):箱体的上下边界即为Q1和Q3。
- 识别异常值:通常将
4. 实际应用场景
- 成绩分析:
- Q1=60分,Q3=85分 → 说明25%学生低于60分,25%高于85分。
- 薪资调研:
- Q2(中位数)比平均值更能抵抗极端高薪的影响。
- 质量控制:
- 监控生产数据是否超出IQR范围,识别异常生产批次。
5. 与其他分位数的关系
- 百分位数(Percentile):四分位数是百分位数的特例(Q1=P25,Q2=P50,Q3=P75)。
- 十分位数(Decile):将数据分为10等份(如D1=P10)。
总结
四分位数通过 三个关键点(Q1、Q2、Q3) 和 IQR,简洁地揭示数据的分布特征,是描述性统计中的核心工具之一。它的优势在于不受极端值影响,适用于非对称分布的数据分析。
464

被折叠的 条评论
为什么被折叠?



