从简单线性回归到多元线性回归
1. 从简单线性回归到多元线性回归
在回归分析中,添加解释变量(如披萨的配料数量)可以提升模型性能。例如,在某些预测中,添加配料数量作为解释变量后,$R^2$ 达到了 0.99。不过,仅在单个测试集上评估模型可能会对模型性能产生不准确的估计。后续可以通过对数据进行多次划分来训练和测试,从而更准确地评估模型性能。目前可以确定的是,多元线性回归模型的表现优于简单线性回归模型。
披萨的价格可能还受其他属性影响。在现实世界中,解释变量和响应变量之间的关系可能并非线性。接下来将介绍一种可用于建模非线性关系的多元线性回归的特殊情况——多项式回归。
1.1 多项式回归
之前的例子假设解释变量和响应变量之间是线性关系。而多项式回归是多元线性回归的一种特殊情况,它用于建模响应变量和多项式特征项之间的线性关系。通过对特征进行变换,可以捕捉现实世界中的曲线关系,然后像多元线性回归一样进行拟合。为了便于可视化,这里仅使用披萨的直径作为解释变量。
以下是训练集和测试集的数据:
| 数据集类型 | 直径(英寸) | 价格(美元) |
| — | — | — |
| 训练集 | 3, 4, 5, 6, 7 | 6, 8, 10, 12.4, 14 |
| 测试集 | 3, 4, 5, 6 | 4, 6, 8, 10 |
二次回归(二阶多项式回归)的公式如下:
需要注意的是,这里一个解释变量仅使用一个特征,但模型现在有三项而非两项。解释变量经过变换后作为第三项添加到模型中,以捕捉曲线关系。同时,多项式回归的方程在向量表示上与多元线性回归的方程相同。可以使用
超级会员免费看
订阅专栏 解锁全文
8150

被折叠的 条评论
为什么被折叠?



