回归分析:预测连续目标变量的综合指南
1. 回归分析基础
在回归分析中,我们旨在预测连续的目标变量。通过执行以下代码打印模型的斜率和截距时,线性回归线会与之前未使用 RANSAC 时得到的拟合结果略有不同:
print('Slope: %.3f' % ransac.estimator_.coef_[0])
print('Intercept: %.3f' % ransac.estimator_.intercept_)
使用 RANSAC 减少了数据集中离群值的潜在影响,但我们不确定这种方法对未见过的数据的预测性能是否有积极影响。因此,接下来我们将探讨评估回归模型的不同方法,这是构建预测建模系统的关键部分。
1.1 线性回归模型性能评估
在之前的学习中,我们学会了在训练数据上拟合回归模型。然而,为了更公正地评估模型的泛化性能,需要在训练过程中未见过的数据上进行测试。我们将数据集划分为训练集和测试集,使用训练集拟合模型,测试集评估模型在未见过数据上的性能。
from sklearn.model_selection import train_test_split
X = df.iloc[:, :-1].values
y = df['MEDV'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
slr = LinearRegression()
s
超级会员免费看
订阅专栏 解锁全文
1079

被折叠的 条评论
为什么被折叠?



