多元线性回归:预期冲球码数分析
1. 引言
在分析橄榄球比赛中的冲球码数时,简单线性回归存在局限性,因为影响冲球码数的因素不止一个。例如,距离首攻或达阵所需的码数、当前的档数、比分差距等都会对冲球码数产生影响。因此,需要使用多元线性回归来更全面地分析这些因素。
2. 多元线性回归的定义
多元线性回归通过预测变量的线性组合来估计多个预测变量对单个响应变量的影响。简单线性回归是多元线性回归的一个特殊情况,在简单线性回归中,有两个参数:截距和斜率,用于建模连续预测变量对响应变量的影响。
例如,在简单线性回归中,冲球码数可以由截距和距离首攻所需码数预测: rushing_yards ~ 1 + ydstogo 。而在多元线性回归中,可以考虑更多的预测变量,如档数: rushing_yards ~ ydstogo + down 。
这里, ydstogo 是连续预测变量,可将其视为类似球员体重的数值; down 是离散预测变量,可看作如球员位置这样的类别。在 statsmodels 和基础 R 中,默认将离散预测变量视为对比项。
下面通过 R 代码展示如何创建模型矩阵:
library(tidyverse)
demo_data_r <- tibble(down = c("first", "second"),
ydstogo = c(10, 5))
model
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



