数据统计分析:从描述到关联
1. 累积与增量分布差异示例
累积分布和增量分布存在明显差异。以苹果 iPhone 销售数据为例,累积分布(红色曲线)和增量分布(蓝色曲线)展示的是同一组销售数据。在某次重要股东活动上,苹果 CEO 蒂姆·库克选择展示的累积分布曲线看似表明销量在迅猛增长,但实际上该曲线会误导对增长率的判断,因为增量变化是该函数的导数,难以直观呈现。而按季度的销量图(蓝色曲线)显示,在展示前的最后两个时期,iPhone 的销售率实际上是下降的。
2. 描述性统计
描述性统计能够概括给定数据集或样本的特征,总结观测数据,并为讨论数据提供语言基础。通过将一组元素用新的派生元素(如均值、最小值、计数或总和)表示,可将大型数据集简化为小型摘要统计量,这就是数据聚合。描述性统计主要分为以下两类:
- 集中趋势度量 :用于捕捉数据分布的中心。
- 变异或变异性度量 :描述数据的离散程度,即测量值与中心的偏离程度。
这两类统计量能让我们深入了解数据的分布情况。
2.1 集中趋势度量
学校里我们最早接触的统计元素就是基本的集中趋势度量,包括均值、中位数和众数。当想用一个数字来描述数据集时,它们是很好的起点。
- 均值 :
- 算术均值是最常用的均值计算方法,通过将所有值相加并除以观测值的数量得到,公式为(\mu_X = \frac{1}{n} \sum_{i=1}^{n} x_i)。我们可以分别记录值的总和与频率计数,仅在需要时进行除法运算,这样就能轻松处理数据的插入
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



