线性回归模型的构建与评估
1. 线性回归基础
当某些假设被违反时,我们仍可使用传统回归模型,但可能需要对数据进行某种变换。下面将详细介绍线性回归的常见估计技术以及相关概念。
1.1 普通最小二乘法(OLS)
线性回归最常用的估计技术是普通最小二乘法(OLS)。OLS 选择的系数能使实际目标值与预测值之间的平方距离之和最小,具体公式为:$\sum_{i = 1}^{N}(y_{i}-\hat{y} {i})^{2}$,其中$y {i}$是第$i$个观测的实际值,$\hat{y} {i}$是预测值,$y {i}-\hat{y}_{i}$被称为残差。
从图形上看,OLS 会拟合一条直线,使数据点到该直线的垂直距离最小。对于简单线性回归(只有一个特征),每个数据点到回归直线的垂直距离就是残差,残差可正可负。
对于直线$y = \beta_{0} + \beta_{1}x$,它给出了每个$x$值对应的$y$的预测值,等于估计的截距$\beta_{0}$加上特征的估计系数乘以特征值$\beta_{1}x$,这就是 OLS 直线。任何其他穿过数据的直线都会导致更高的残差平方和。该方法可扩展到多元线性回归模型,公式为$y = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + \cdots + \beta_{n}x_{n} + \epsilon$,其中$y$是目标,每个$x$是特征,每个$\beta$是系数(或截距),$n$是特征数量,$\epsilon$是误差项。每个系数表示相关特征每变化 1 个单位时目标的估计变化。需要注意的是,系数在每个特征的整个范围内是恒定的,
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



