线性模型:回归与分类的深入解析
1. 过拟合问题与模型选择
在机器学习中,过拟合是一个常见且棘手的问题。当模型在训练数据上表现出色,但在测试数据上却表现不佳时,这就是过拟合的明显迹象。为了避免过拟合,我们需要找到一种能够控制模型复杂度的方法。
1.1 岭回归(Ridge Regression)
岭回归是标准线性回归的一种常用替代方法。它同样是一种线性回归模型,预测公式与普通最小二乘法相同。不过,岭回归在选择系数 $w$ 时,不仅要考虑在训练数据上的预测效果,还增加了一个约束条件:希望系数的绝对值尽可能小,即所有 $w$ 的元素都接近 0。
这种约束被称为正则化,岭回归使用的是 $l_2$ 正则化。从数学角度来看,岭回归对系数的 $l_2$ 范数(即 $w$ 的欧几里得长度)进行惩罚。
以下是使用 sklearn 库中的 Ridge 类对扩展波士顿数据集进行岭回归的代码示例:
from sklearn.linear_model import Ridge
# 假设 X_train 和 y_train 是训练数据
ridge = Ridge().fit(X_train, y_train)
print("training set score: %f" % ridge.score(X_train, y_train))
print("test set score: %f" % ridge.score(X_test, y_test))
运行上述代码后,我们得到训练集得分 0
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



