机器学习中的线性回归与逻辑回归:原理、应用与实践
一、线性回归基础
1.1 帽子值与帽子矩阵
在机器学习中,线性回归是一项基础且重要的技术。对于线性模型 (Y = B_0 + B_1x + e),可以将其转换为矩阵表示形式 (Y = XB + E),其中 (Y) 保持不变,(X) 是输入值矩阵,(B) 是系数,(E) 代表误差。在回归过程中会得到一个帽子矩阵(Hat Matrix),它将模型的计算值映射到实际值,反映了特定观测值在模型中的影响力。残差平方和除以 (1) 减去帽子值等同于留一法交叉验证(LOOCV)。
1.2 定性特征的处理
定性特征(也称为因子)可以有两个或更多水平,如性别(男/女)、评价(差/中/好)等。
- 两水平特征 :对于两水平的特征,如性别,可以创建指示变量(虚拟变量),任意将一个水平赋值为 (0),另一个赋值为 (1)。例如,若将男性编码为 (0),女性编码为 (1),线性模型 (Y = B_0 + B_1x + e) 中,男性的期望为截距 (B_0),女性的期望为 (B_0 + B_1x)。
- 多水平特征 :当特征有多于两个水平时,需要创建 (n - 1) 个指示变量。例如,对于有三个水平的特征,应创建两个指示变量。若创建的指示变量数量与水平数量相同,会陷入虚拟变量陷阱,导致完全多重共线性。
下面通过一个具体例子来展示如何处理定性特征。使用 ISLR 包中的 Carseats 数据集,预测汽车座椅的销售情况,考虑定量特征 Advert
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



