1. 数组的集中趋势
1.1 常用的集中趋势指标-我们如何定义一个数组的中心
- 我们常用以下几个指标来描述一个数组的集中趋势:
- 均值-算数平均数,描述平均水平,例如:客单价、件单价、人均访问时长、平均配送时长;
- 中位数-将数据按升序或降序排列后位于正中间的数,描述中等水平;
- 众数-数据中出现最多的数,描述一般水平;
- 假设A、B两组数:
A:5,6,6,6,6,8,10
B:3,5,5,6,6,9,12
A组: 均值:6.74,中位数:6,众数:6;
B组: 均值:6.57,中位数:6,众数:5,6;
- 对A组做一些变化:
A:5,6,6,6,7,8,10,20
B:3,5,5,6,6,9,12
均值:8.375,中位数:6,众数:6
均值大幅度提升,但中位数和众数没有变化
- 均值
优点 | 缺点 |
---|---|
充分利用所有数据,适用性强 | 容易受到极端值影响 |
- 中位数
优点 | 缺点 |
---|---|
能够避免被极端值过分影响 | 不敏感 |
- 众数
优点 | 缺点 |
---|---|
能够很好的反映数据的集中趋势 | 当数据没有明显的集中趋势时,基本没有信息量 |
- 均值在什么场景下需要注意:样本中有极大值或极小值,且极值在使用场景中不会复现,或难以复现的时候
1.2 EXCEL和R语言中的实现
- Excel:
均值:average(数组);
中位数:median(数组),quartile(数组,[quart]),0-最小值,1-下四分位数,2-中位数,3-上四分位数,4-最大 值;
众数:mode(数组)
- R:
均值:mean(数组)
中位数:median(数组)
众数:无内置函数