线性回归基础:从基础原理到高级应用
1. 线性回归面临的挑战
线性回归在实际应用中会遇到一些挑战,这些挑战会影响模型的性能和准确性。
1.1 异常值的影响
异常值是指那些超出正常范围的数据点。在线性回归中,模型试图最小化误差的平方值(也称为残差)。由于异常值的残差较大,这会迫使算法更多地关注这些异常值,而不是正常的数据点,从而对模型的拟合效果产生干扰。
1.2 处理复杂关系
线性回归模型是独立项的总和,每个特征在求和中独立存在,仅乘以其自身的系数。这种数学形式适用于特征之间无关的情况,例如人的年龄和眼睛颜色,它们相互独立,在回归求和中分开处理是合理的。
然而,当特征之间存在关联时,线性回归就会面临挑战。例如,人的年龄和头发颜色是相关的,随着年龄增长,头发会变白。将这些特征放入回归求和中,就像是对相同信息进行求和,无法准确表示变量组合对结果的影响,也就难以处理复杂的情况。
此外,很多情况下响应变量与特征之间是非线性关系。以人类身高增长为例,在特定年龄范围内,年龄和身高的关系近似线性,孩子随着年龄增长而长高。但过了一定年龄,孩子停止生长,身高在很长一段时间内保持不变,到老年时会缓慢下降。显然,线性回归无法捕捉这种非线性关系。
1.3 多项式展开解决复杂关系
为了处理复杂关系,可以使用多项式展开对预测变量进行数学变换。给定一个特定的次数 $d$,多项式展开会创建每个特征的幂,直到 $d$ 次幂,并生成所有项的 $d$ 组合。
例如,对于一个简单的线性模型 $y = b_1x_1 + b_2x_2 + a$,使用二次多项式展开后,模型变为
超级会员免费看
订阅专栏 解锁全文
3774

被折叠的 条评论
为什么被折叠?



