体育数据中的相关性分析与简单线性回归应用
1. 皮尔逊相关系数与体育数据稳定性
皮尔逊相关系数取值范围为 -1 到 1。在稳定性分析中,接近 +1 的值意味着强正相关和更高的稳定性,接近 0 的值则表示弱相关(测量不稳定)。而 -1 表示负相关,在稳定性分析中不存在,但意味着今年的高值会与明年的低值相关。
在体育数据中,噪声数据可以帮助我们找出那些表现突然提升但不太可能持续的球员、球队或团队单元。例如,一名棒球运动员某一年因击球成功率(BABIP)提高而使平均成绩提升 20 分,在梦幻棒球或现实棒球比赛中,可能就不值得将其列入阵容。同样,一名较弱的四分卫在某一年长传的每传球尝试码数(YPA)或预期积分增加量(EPA)很高,但短传数据没有相应提升,那么他可能就是分析师所说的回归候选人。
以下是 2017 年长传 YPA 排行榜的 Python 代码及结果:
pbp_py_p_s_pl\
.query(
'pass_length_air_yards == "long" & season == 2017'
)[["passer_id", "passer", "ypa"]]\
.sort_values(["ypa"], ascending=False)\
.head(10)
结果如下:
| passer_id | passer | ypa |
| — | — | — |
| 00 - 0023436 | A.Smith | 19.338235 |
| 00 - 002
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



