Excel-箱线图(数据分布)分析

本文深入解析箱线图的概念、结构与绘制方法,通过实例展示如何利用箱线图分析数据分布,揭示数据集的中心位置、散布范围与分布差异,为数据驱动的网站管理、优化和运营提供有力支持。

本文摘自作者《网站数据分析:数据驱动的网站管理、优化和运营 》:http://item.jd.com/11295690.html


箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。


1什么是四分位数


箱线图需要用到统计学的四分位数(Quartile)的概念,所谓四分位数,就是把组中所有数据由小到大排列并分成四等份,处于三个分割点位置的数字就是四分位数。


  • 第一四分位数(Q1),又称较小四分位数或“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

  • 第二四分位数(Q2),又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。

  • 第三四分位数(Q3),又称较大四分位数或“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

  • 第三四分位数与第一四分位数的差距又称四分位间距(InterQuartile RangeIQR)。


计算四分位数首先要确定Q1Q2Q3的位置(n表示数字的总个数):


  • Q1的位置=n+1/4

  • Q2的位置=n+1/2

  • Q3的位置=3n+1/4


对于数字个数为奇数的,其四分位数比较容易确定。例如,数字“54748154241739454035”共有11项,由小到大排列的结果为“57153539404142454748”,计算结果如下:


  • Q1的位置=11+1/4=3,该位置的数字是15

  • Q2的位置=11+1/2=6,该位置的数字是40

  • Q3的位置=311+1/4=9,该位置的数字是45


而对于数字个数为偶数的,其四分位数确定起来稍微繁琐一点。例如,数字“81738394244”共有6项,位置计算结果如下:


  • Q1的位置=6+1/4=1.75

  • Q2的位置=6+1/2=3.5

  • Q3的位置=36+1/4=5.25


这时的数字以数据连续为前提,由所确定位置的前后两个数字共同确定。例如,Q2的位置为3.5,则由第3个数字38和第4个数字39共同确定,计算方法是:38+39-38×3.5的小数部分,即38+1×0.5=38.5。该结果实际上是3839的平均数。


同理,Q1Q3的计算结果如下:


  • Q1 = 8+17-8×0.75=14.75

  • Q3 = 42+44-42×0.25=42.5


Excel为计算四分位数提供了QUARTILE(array,quart)函数,其中array参数用于指定要计算四分位数值的数组或数值型单元格区域,quart指定返回哪一个四分位值,可用值如下:


  • 0,返回最小值;

  • 1,返回第一个四分位数;

  • 2,返回第二个四分位数,即中位数;

  • 3,返回第三个四分位数;

  • 4,返回最大值。

2.箱线图的结构
箱线图包括一个矩形箱体和上下两条竖线,箱体表示数据的集中范围,上下两条竖线分别表示数据向上和向下的延伸范围,结构如图9-51所示。




9-51箱线图的结构

四分位间距框的顶部线条是第三四分位数的位置,即Q3,表示有75%的数据小于等于此值。底部线条是第一四分位数的位置,即Q1,表示有25%的数据小于此值。则整个四分位间距框所代表的是数据集中50%(即75%-25%)的数据,四分位间距框的高度就是这些数据涉及的范围,能够表现出数据的集中程度。Q2是数据中位数的位置。


Whisker上限是延伸至距框顶部1.5倍框高范围内的最大数据点,Whisker下限是延伸至距框底部1.5倍框高范围内的最小数据点,超出Whisker上限或下限的数值将使用星号“*”表示。但是,在Excel中绘制箱线图需要借助股价图来实现,因此无法展现异常值,Whisker上限将延伸至数据最大值的位置,Whisker下限将延伸至数据最小值的位置。


3.绘制箱线图


9-52中的A2:F8区域和H2:M8区域分别是华北和华南是某段时间客户订单收货天数的统计结果,C11:C15J11:J15是利用QUARTILE函数计算的华北、华南收货天数的四分位数结果。

9-52收货天数的四分位数计算结果


Excel中绘制箱线图需要借助股价图的“开盘-盘高-盘底-收盘”图来实现。根据Excel绘图时放置数据系列的位置,开盘、盘高、盘底、收盘应分别对应Q1Q0Q2Q4。下面是绘图步骤:


  • 准备图表数据。根据对应关系,在表格的B18:E18区域分别输入华北客户的Q1Q0Q2Q4统计数字,将Q3输入到最后的F18单元格中,在A18中输入一个日期型数据(注意,必须为日期型),如“2013/1/1”。然后在第19行中输入华南客户的数据,A19中的日期递增1天,最终结果如图9-53所示。

9-53准备图表数据


  • 插入图表。选定A18:E19区域,在“插入”功能区的“图表”模块中单击“其他图表”,选择股价图部分的“开盘-盘高-盘底-收盘图”按钮,即可看到绘制的股价图,如图9-54所示。

9-54插入股价图


  • 添加Q3数据系列。由图9-54可以看出,四分位间距框的顶部线条使用的是Q4(最大值)位置,而是不是箱线图要求的Q3位置。右击绘图区,在弹出的快捷菜单中选择“选择数据”命令,打开“选择数据源”对话框。单击“添加”按钮打开“编辑数据系列”对话框,在“系列名称”折叠框中输入“Q3”,在系列值折叠框中选择F18:F19区域,单击“确定”按钮即可看到股价图变成了箱线图,如图9-55所示。四分位间距框的高度小了很多,单击顶部线条与Whisker上限交汇处,可以看到使用的是Q3数据。

9-55 添加Q3数据系列


  • 显示中位数线。至此,四分位间距框虽然已经绘制正确了,但是还缺少中位数线,即Q2。选择图例中的“系列3”标签,然后单击鼠标右键,在弹出的快捷菜单中选择“设置数据系列格式”命令,打开“设置数据系列格式”对话框。在“数据标记选项”中将标记类型设置为内置的“-”形状,单击“关闭”按钮即可看到中位线显示了出来,如图9-56所示。

9-56显示中位数线


  • 美化图表。首先要修改分类轴(横轴)标签,由于插入股价图时的限制在A18A19单元格中输入了日期型数据,但是在图表插入后,可以将其修改为其他数据类型的值,因此在A18A19单元格分别输入“华北”、“华南”。其次是删除图例栏,对于箱线图而言这并不需要。最后,可以为图表添加一个标题。最终美化后结果如图9-57所示。

9-57美化后的图表


由图9-57可以看出,华北和华南客户的中位数位置、四分位间距框的位置与高度基本相同,说明两区域的客户收货天数基本相同。但是,从Whisker上限和Whisker下限看,华南客户的收货天数范围小于华北客户,说明流程更加稳定。



<think>我们参考了用户提供的引用内容,其中提到使用股价图绘制箱线图的方法,但这种方法较为繁琐且无法直接展示异常值。实际上,Excel 2016及以上版本已内置箱线图(箱形图)图表类型,可自动计算四分位数和IQR并识别异常值。以下是详细步骤: ### 一、Excel 2016+ 绘制两组数据对比箱线图(推荐方法) #### 步骤1:准备数据 - 将两组数据分别放在两列中(如A列和B列),**无需预先计算统计量** ``` | A组 | B组 | |-----|-----| | 15 | 22 | | 18 | 25 | | ... | ... | ``` #### 步骤2:插入箱线图 1. **选中数据区域**(含列标题) 2. **插入图表** → **统计图** → **箱形图** ![插入箱线图位置](https://support.content.office.net/zh-cn/media/4b6d7b2f-6b0c-4c1d-9e7c-9a8c5a4b1f9f.png) #### 步骤3:自动计算与显示 - Excel 会自动完成以下计算: - 最小值、最大值、$Q1$、$Q2$(中位数)、$Q3$、$IQR$ - **异常值判定**:超出 $[Q1-1.5 \times IQR,\ Q3+1.5 \times IQR]$ 范围的点(以散点显示)[^1][^3] #### 步骤4:对比两组数据 - 图表默认并排显示两组箱线图,可直接对比: - **箱体位置**:反映数据集中趋势 - **IQR长度**:反映数据离散程度(箱体越长数据越分散) - **异常值分布**:独立显示在箱线图--- ### 二、传统方法(Excel 2016前版本,手动计算绘制) 若使用旧版Excel,需手动计算统计量并用股价图模拟箱线图(过程复杂): #### 步骤1:计算每组数据的统计量 | 统计量 | 公式示例(A组) | |----------------|------------------------------| | **最小值** | `=MIN(A2:A100)` | | **$Q1$** | `=QUARTILE.INC(A2:A100,1)` | | **中位数** | `=MEDIAN(A2:A100)` | | **$Q3$** | `=QUARTILE.INC(A2:A100,3)` | | **最大值** | `=MAX(A2:A100)` | | **IQR** | `=Q3 - Q1` | | **正常范围下限** | `=Q1 - 1.5*IQR` | | **正常范围上限** | `=Q3 + 1.5*IQR` | #### 步骤2:提取实际箱线图所需值 创建新表,按以下结构整理(以A组为例): | 类型 | 值(示例) | 说明 | |------------|------------|--------------------------| | **上边缘** | `=MIN(MAX(A组数据), 正常范围上限)` | 不超过正常范围上限的最大值 | | **下边缘** | `=MAX(MIN(A组数据), 正常范围下限)` | 不低于正常范围下限的最小值 | | **$Q1$** | 直接引用计算的$Q1$ | | | **中位数** | 直接引用中位数 | | | **$Q3$** | 直接引用$Q3$ | | #### 步骤3:用股价图绘制 1. 将整理好的统计量按**五列排列**(顺序:下边缘、$Q1$、中位数、$Q3$、上边缘) 2. 选中数据 → **插入** → **股价图** → **开盘-盘高-盘低-收盘图** 3. 调整格式: - 删除“开盘”系列(因箱线图不需要) - 将箱体填充颜色 > ⚠️ 此方法**无法自动显示异常值**,需额外处理[^2]。 --- ### 三、关键注意事项 1. **IQR与异常值**: - 异常值判定标准:$ < Q1 - 1.5 \times IQR$ 或 $ > Q3 + 1.5 \times IQR$[^1][^3] -Excel 2016+箱线图中,异常值以独立点显示 2. **函数选择**: - 使用`QUARTILE.INC`(包含端点)或`QUARTILE.EXC`(排除端点)会影响$Q1/Q3$结果 - **默认推荐**:`QUARTILE.INC`(与Excel箱线图内部算法一致) 3. **多组对比**: - 直接选中多列数据插入箱线图即可 - 可通过**图表设计** → **选择数据**调整组别 --- ### 示例效果对比(A组 vs B组) ![Excel箱线图对比示例](https://i.imgur.com/5XJzZ9l.png) *两组数据的分布、离散度和异常值一目了然[^3]* §§相关问题§§ 1. 如何用Excel箱线图分析三组以上数据? 2. 箱线图中的“须线”长度如何自定义调整? 3. Excel箱线图与直方图在数据分析中的适用场景有何不同? </think> ### Excel绘制两组数据对比箱线图的方法(2016+版本) #### 一、简化步骤(推荐方法) 1. **准备数据** 将两组数据分别放在两列中(如A列和B列),**无需手动计算统计量**: ``` | A组 | B组 | |-----|-----| | 15 | 22 | | 18 | 25 | | ... | ... | ``` 2. **插入箱线图** - 选中数据区域(含列标题) - 点击 **插入** → **统计图表** → **箱形图** ![插入位置](https://support.content.office.net/zh-cn/media/4b6d7b2f-6b0c-4c1d-9e7c-9a8c5a4b1f9f.png) 3. **自动生成效果** Excel 会自动完成: - 计算最小值、$Q1$、中位数、$Q3$、最大值、$IQR$ - 识别异常值(超出 $[Q1-1.5 \times IQR,\ Q3+1.5 \times IQR]$ 的点) - 并排显示两组箱线图,直观对比数据分布 --- #### 二、传统方法(旧版Excel) 若使用Excel 2013及更早版本,需手动计算统计量: 1. **计算关键统计量**(每组数据单独计算) | 统计量 | 公式(以A组为例) | |----------|--------------------------------| | 最小值 | `=MIN(A2:A100)` | | $Q1$ | `=QUARTILE.INC(A2:A100,1)` | | 中位数 | `=MEDIAN(A2:A100)` | | $Q3$ | `=QUARTILE.INC(A2:A100,3)` | | 最大值 | `=MAX(A2:A100)` | | IQR | `=Q3 - Q1` | | 下限 | `=Q1 - 1.5*IQR` | | 上限 | `=Q3 + 1.5*IQR` | 2. **整理绘图数据** 按以下顺序排列统计量(以A组为例): ``` | 类型 | 值 | |------------|-----------| | 下边缘 | 实际最小值 | | $Q1$ | 计算值 | | 中位数 | 计算值 | | $Q3$ | 计算值 | | 上边缘 | 实际最大值 | ``` > 注:下边缘 = `MAX(最小值, 下限)`,上边缘 = `MIN(最大值, 上限)` 3. **用股价图绘制** - 选中整理好的数据 → 插入 **股价图-开盘盘高盘低收盘图** - 删除"开盘价"系列,保留4列数据 - 重复步骤为第二组数据绘图 --- ### 三、专业技巧 1. **异常值处理** - Excel 2016+ 会自动将超出 $[Q1-1.5IQR,\ Q3+1.5IQR]$ 的值显示为散点 - 旧版需手动筛选异常值并单独绘制 2. **增强对比效果** - **颜色区分**:右键点击箱体 → "填充"设置不同颜色 - **添加标签**:勾选"数据标签"显示中位数/$Q1$/$Q3$ - **调整间距**:双击系列 → 设置"系列重叠"为0%,"间隙宽度"30% --- ### 示例效果图 ![两组数据箱线图对比](https://i.imgur.com/5XJzZ9l.png) *通过箱体位置、长度和异常点分布直观对比数据差异*
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值