5、数据统计分析:从描述到关联

数据统计分析:从描述到关联

1. 累积与增量分布差异示例

累积分布和增量分布存在明显差异。以苹果 iPhone 销售数据为例,累积分布(红色曲线)和增量分布(蓝色曲线)展示的是同一组销售数据。在某次重要股东活动上,苹果 CEO 蒂姆·库克选择展示的累积分布曲线看似表明销量在迅猛增长,但实际上该曲线会误导对增长率的判断,因为增量变化是该函数的导数,难以直观呈现。而按季度的销量图(蓝色曲线)显示,在展示前的最后两个时期,iPhone 的销售率实际上是下降的。

2. 描述性统计

描述性统计能够概括给定数据集或样本的特征,总结观测数据,并为讨论数据提供语言基础。通过将一组元素用新的派生元素(如均值、最小值、计数或总和)表示,可将大型数据集简化为小型摘要统计量,这就是数据聚合。描述性统计主要分为以下两类:
- 集中趋势度量 :用于捕捉数据分布的中心。
- 变异或变异性度量 :描述数据的离散程度,即测量值与中心的偏离程度。

这两类统计量能让我们深入了解数据的分布情况。

2.1 集中趋势度量

学校里我们最早接触的统计元素就是基本的集中趋势度量,包括均值、中位数和众数。当想用一个数字来描述数据集时,它们是很好的起点。
- 均值
- 算术均值是最常用的均值计算方法,通过将所有值相加并除以观测值的数量得到,公式为(\mu_X = \frac{1}{n} \sum_{i=1}^{n} x_i)。我们可以分别记录值的总和与频率计数,仅在需要时进行除法运算,这样就能轻松处理数据的插入

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值