1. 数组的集中趋势
1.1 常用的集中趋势指标-我们如何定义一个数组的中心
- 我们常用以下几个指标来描述一个数组的集中趋势:
- 均值-算数平均数,描述平均水平,例如:客单价、件单价、人均访问时长、平均配送时长;
- 中位数-将数据按升序或降序排列后位于正中间的数,描述中等水平;
- 众数-数据中出现最多的数,描述一般水平;
- 假设A、B两组数:
A:5,6,6,6,6,8,10
B:3,5,5,6,6,9,12
A组: 均值:6.74,中位数:6,众数:6;
B组: 均值:6.57,中位数:6,众数:5,6;
- 对A组做一些变化:
A:5,6,6,6,7,8,10,20
B:3,5,5,6,6,9,12
均值:8.375,中位数:6,众数:6
均值大幅度提升,但中位数和众数没有变化
- 均值
| 优点 | 缺点 |
|---|---|
| 充分利用所有数据,适用性强 | 容易受到极端值影响 |
- 中位数
| 优点 | 缺点 |
|---|---|
| 能够避免被极端值过分影响 | 不敏感 |
- 众数
| 优点 | 缺点 |
|---|---|
| 能够很好的反映数据的集中趋势 | 当数据没有明显的集中趋势时,基本没有信息量 |
- 均值在什么场景下需要注意:样本中有极大值或极小值,且极值在使用场景中不会复现,或难以复现的时候
1.2 EXCEL和R语言中的实现
- Excel:
均值:average(数组);
中位数:median(数组),quartile(数组,[quart]),0-最小值,1-下四分位数,2-中位数,3-上四分位数,4-最大 值;
众数:mode(数组)
- R:
均值:mean(数组)
中位数:median(数组)
众数:无内置函数

本文介绍了数据的集中趋势、离散程度和分布分析。集中趋势通过均值、中位数和众数进行衡量,文中以实例解释了它们的含义和在Excel与R语言中的实现。离散程度则由极差、方差和标准差描述,强调了标准差在数据稳定性评估中的重要性。此外,文章还讨论了频数分析,包括数据频度表、茎叶图、直方图和箱线图,以及数据分布的随机性和连续性,重点提及泊松分布的概念。
最低0.47元/天 解锁文章
1702

被折叠的 条评论
为什么被折叠?



