橄榄球数据的简单线性回归与RYOE指标分析
1. 数据初步观察与简单线性回归准备
在分析橄榄球数据时,通过图3 - 5和图3 - 6可以看到平均码数增益和剩余码数之间存在正线性关系。虽然分箱和求平均值不能替代对整个数据集进行回归分析,但这种方法能让我们初步判断是否值得进行回归分析,还能帮助我们更好地“观察”数据。
2. 简单线性回归
在对数据进行整理和探究后,就可以进行简单线性回归了。Python和R在相关函数中使用相同的公式表示法。例如,要构建一个用剩余码数(ydstogo)预测冲球码数(rushing_yards)的简单线性回归模型,使用的公式是 rushing_yards ~ 1 + ydstogo 。
公式左边是目标变量(响应变量),右边是预测变量。这里的“1”是可选值,用于明确模型包含截距项。在实际代码中,很多时候不会在公式里包含截距项,但这里加上是为了让我们更明确地考虑模型中的这一项。
使用 statsmodels 包进行统计推断比更流行的Python包 scikit - learn 更合适,因为 scikit - learn 更适合机器学习。而且 statsmodels 使用的语法与R相似,便于比较两种语言。
Python代码示例 :
import statsmodels.formula.api as smf
yard_to_go_py
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



