概率论基础

本文介绍了数据的集中趋势、离散程度和分布分析。集中趋势通过均值、中位数和众数进行衡量,文中以实例解释了它们的含义和在Excel与R语言中的实现。离散程度则由极差、方差和标准差描述,强调了标准差在数据稳定性评估中的重要性。此外,文章还讨论了频数分析,包括数据频度表、茎叶图、直方图和箱线图,以及数据分布的随机性和连续性,重点提及泊松分布的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 数组的集中趋势

1.1 常用的集中趋势指标-我们如何定义一个数组的中心

  • 我们常用以下几个指标来描述一个数组的集中趋势:
    • 均值-算数平均数,描述平均水平,例如:客单价、件单价、人均访问时长、平均配送时长;
    • 中位数-将数据按升序或降序排列后位于正中间的数,描述中等水平;
    • 众数-数据中出现最多的数,描述一般水平;
  • 假设A、B两组数:

A:5,6,6,6,6,8,10
B:3,5,5,6,6,9,12

A组: 均值:6.74,中位数:6,众数:6;
B组: 均值:6.57,中位数:6,众数:5,6;

  • 对A组做一些变化:

A:5,6,6,6,7,8,10,20
B:3,5,5,6,6,9,12

均值:8.375,中位数:6,众数:6

均值大幅度提升,但中位数和众数没有变化

  • 均值
优点 缺点
充分利用所有数据,适用性强 容易受到极端值影响
  • 中位数
优点 缺点
能够避免被极端值过分影响 不敏感
  • 众数
优点 缺点
能够很好的反映数据的集中趋势 当数据没有明显的集中趋势时,基本没有信息量
  • 均值在什么场景下需要注意:样本中有极大值或极小值,且极值在使用场景中不会复现,或难以复现的时候

1.2 EXCEL和R语言中的实现

  • Excel:

均值:average(数组);
中位数:median(数组),quartile(数组,[quart]),0-最小值,1-下四分位数,2-中位数,3-上四分位数,4-最大 值;
众数:mode(数组)

  • R:

均值:mean(数组)
中位数:median(数组)
众数:无内置函数

1.3 小结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值