机器学习中的统计建模:回归、聚类与无监督学习
1. 多元线性回归的局限性
多元回归是预测中的强大技术,但存在一定局限性。在多元线性回归模型中,通常使用普通最小二乘法(OLS)来确定响应变量。OLS 方法旨在最小化响应变量的实际值和预测值之间的平方差之和。
然而,多元线性回归存在一些问题。例如,有时某些预测变量对响应变量的预测并不重要,但 OLS 会平等对待所有预测变量,这会增加模型的复杂性。通过去除这些变量或将其系数设为零,可以提高模型的性能。
当观测值数量(n)远大于预测变量数量(p)时,OLS 方程表现良好,但存在少量偏差,对未见过的数据有较好的准确性。当观测值数量与预测变量数量差距不大(n > p)时,模型会出现过拟合问题,对未见过的数据表现不佳。当预测变量数量多于观测值数量(n < p)时,多元线性回归模型无法执行,因为无法求出 $X^TX$ 的逆矩阵。
为克服这些局限性,可以采用子集选择、正则化和降维等方法。
2. 子集选择方法
子集选择方法旨在找到与预测变量相关的重要预测因子,以提高模型性能,主要包括以下两种:
- 最佳子集选择 :该方法通过对所有可能的预测变量子集进行拟合,选择最佳模型。具体算法如下:
1. 首先使用无预测变量的模型 $m_0$。
2. 对于 $x = 1,2,3, \cdots, p$ 个预测变量:
- 拟合所有包含 $k$ 个预测变量的模型。
- 使用 RSS 或 $R^2$ 选择最佳模型。
3. 最后,使用交叉验证预测误差、BIC 或调整后的 $R^2$ 从每个子集的最佳模
超级会员免费看
订阅专栏 解锁全文
864

被折叠的 条评论
为什么被折叠?



