线性回归与分类算法详解
一、线性回归模型
1.1 线性回归方程及参数
在一个公式中,设 $y$ 为需求,$x$ 为温度,$x^2$ 为温度的平方。参数分别为 $\beta_0 = -220$,$\beta_1 = 5.0$,$\beta_2 = -0.02$。对于线性回归问题,机器学习算法的任务就是找出这些参数。虽然得到的曲线看起来是二次曲线而非直线,但这仍属于线性回归问题。因为“线性”指的是我们所估计的参数($\beta_0$,$\beta_1$,…,$\beta_n$),只要不对这些参数进行幂运算或其他非线性操作,就仍可视为线性模型。
这个例子仅使用了一个输入变量(温度),但我们从该变量创建了另一个变量(温度的平方),所以模型实际上有两个输入。我们还可以扩展到包含更高阶的多项式,也能与之前有多个输入变量(如温度和广告)的模型相结合,创建所有原始输入变量的高阶多项式,得到更复杂但仍属于线性的模型。
1.2 计算线性回归系数
1.2.1 普通最小二乘法(OLS)和均方误差(MSE)
有多种方法可以将一条直线拟合到多个数据点上,最常见的是普通最小二乘法(OLS),它基于最小化均方误差(MSE)。若之前接触过 OLS,可能也见过其闭式解,即通过操作数学符号来计算的解,而非用数值方法计算近似解。
1.2.2 梯度下降法
我们也可以使用梯度下降法迭代得到数值解。首先,若有 $n$ 个输入变量,最直接的线性回归假设为:
$y = w_0 + w_1x_1 + w_2x_2 + \cdots + w_nx_n$
不过,也可以考虑包含高阶项的更复杂情况。我们使
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



