7、数据准备、探索与抽样技术详解

数据准备、探索与抽样技术详解

1. 马拉松数据的初步分析

在马拉松数据中,我们可以通过均值和标准差来了解马拉松运动员的完赛时间情况。平均而言,马拉松运动员的完赛时间为 4.65 +/- 2.08 小时。不同类型的跑步者有着不同的跑步速度,因此完赛时间也不同。以下代码展示了不同类型跑步者的平均完赛时间和标准差:

tapply(marathon$Finish_Time,marathon$Type, mean)
  First-Timer    Frequents Professional 
     7.154118     4.213158     2.207143
tapply(marathon$Finish_Time,marathon$Type, sd)
  First-Timer    Frequents Professional 
    0.8742358    0.5545774    0.3075068

从上述结果可以看出,新手(First - Timer)的平均完赛时间最长,专业选手(Professional)的平均完赛时间最短,且专业选手完赛时间的标准差也最小,说明他们的成绩更为稳定。

2. 偏度(Skewness)分析

方差用于衡量数据的离散程度,而偏度则用于衡量随机变量概率分布关于均值的不对称性。一般来说,偏度可分为两种类型:
- 负偏态(Negative skew) :左尾较长,分布的主体集中在右侧,也称为左偏、左尾或向左偏斜。
- 正偏态(Positive skew)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值