数据准备、探索与抽样技术详解
1. 马拉松数据的初步分析
在马拉松数据中,我们可以通过均值和标准差来了解马拉松运动员的完赛时间情况。平均而言,马拉松运动员的完赛时间为 4.65 +/- 2.08 小时。不同类型的跑步者有着不同的跑步速度,因此完赛时间也不同。以下代码展示了不同类型跑步者的平均完赛时间和标准差:
tapply(marathon$Finish_Time,marathon$Type, mean)
First-Timer Frequents Professional
7.154118 4.213158 2.207143
tapply(marathon$Finish_Time,marathon$Type, sd)
First-Timer Frequents Professional
0.8742358 0.5545774 0.3075068
从上述结果可以看出,新手(First - Timer)的平均完赛时间最长,专业选手(Professional)的平均完赛时间最短,且专业选手完赛时间的标准差也最小,说明他们的成绩更为稳定。
2. 偏度(Skewness)分析
方差用于衡量数据的离散程度,而偏度则用于衡量随机变量概率分布关于均值的不对称性。一般来说,偏度可分为两种类型:
- 负偏态(Negative skew) :左尾较长,分布的主体集中在右侧,也称为左偏、左尾或向左偏斜。
- 正偏态(Positive skew)