吴恩达《机器学习》--- 线性回归

最新推荐文章于 2020-05-23 11:13:37 发布

原创最新推荐文章于 2020-05-23 11:13:37 发布 · 350 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #sklearn

编程专栏收录该内容

72 篇文章

订阅专栏

本文详细介绍了吴恩达老师的《Machine Learning》课程中的线性回归概念，包括模型表达、误差函数、梯度下降法及Normal Equation等核心知识点，并演示了如何使用scikit-learn实现线性回归、Ridge回归、Lasso回归及Elastic Net。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

吴恩达老师Coursera《Machien Learing》

机器学习的模型表达

这里写图片描述

线性模型

$h(x)=\theta_0+\theta_1x_1$

误差函数

这里写图片描述
线性回归的过程就是通过对训练集数据的学习，选择使得误差函数最小化的 $\theta$

实现这一过程主要有两种方法：梯度下降和Normal Equation

梯度下降

梯度下降的思想是选取导数的相反方向更新 $\theta$ ，如图所示：
这里写图片描述
注意参数更新的时机：

$\alpha$ 的选取决定了误差函数收敛的速度，决定了学习的时间。

选择 $\alpha$ 尝试如下方法：

计算中误差函数的导数是这样的：

实际应用中可以通过对特征值进行Feature Scaling和Mean Normalization来加速梯度下降其原理示意图如下：
这里写图片描述
其方法是 $x_i = \frac{x_i - mean(x)}{max(x) - min(x)}$

Normal Equation

这是第二种优化误差函数的方法，直接令误差函数对 $\theta_0$ 导数等于0，进而可以求得 $\theta$ 表达式：
$\theta = (X^TX)^{-1}X^Ty$
与梯度下降法相比，Normarl Equation无需选择 $\alpha$ ，无需多次迭代，但是计算 $(X^TX)^{-1}$ 为 $O(n^3)$ 计算量较大，因而更适于特征规模较小的情况，通常10000以下可以考虑。

上述讨论了线性回归的模型、误差函数、参数训练方法，训练方法中还讨论了梯度下降法和Normal Equation两种方法，以及训练过程中需要注意的问题，想要探究内部机理的同学可以仔细研究。然而使用scikit-learn实现线性回归，根本无需考虑这么多问题，请看下文。

scikit-learn实现

最小二乘法

线性模型，最小化方差，求解时采用梯度下降法。
sklearn线性回归非常简单，如下所示：

>>> from sklearn import linear_model
>>> reg = linear_model.LinearRegression()
>>> reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
>>> reg.coef_
array([ 0.5,  0.5])

Ridge回归

线性模型的一种优化，主要是为了降低数据敏感性，通过减小||w||实现，在优化目标上添加2范数 $\alpha$ ||w||₂。

>>> from sklearn import linear_model
>>> reg = linear_model.Ridge (alpha = .5)
>>> reg.fit ([[0, 0], [0, 0], [1, 1]], [0, .1, 1]) 
Ridge(alpha=0.5, copy_X=True, fit_intercept=True, max_iter=None,
      normalize=False, random_state=None, solver='auto', tol=0.001)
>>> reg.coef_
array([ 0.34545455,  0.34545455])
>>> reg.intercept_ 
0.13636...

sklearn提供RidgeCV通过交叉验证的方式选择最好的 $\alpha$

>>> from sklearn import linear_model
>>> reg = linear_model.RidgeCV(alphas=[0.1, 1.0, 10.0])
>>> reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])       
RidgeCV(alphas=[0.1, 1.0, 10.0], cv=None, fit_intercept=True, scoring=None,
    normalize=False)
>>> reg.alpha_                                      
0.1

Lasso回归

目的与上述的Ridge回归一样，只是优化目标是方差+|w|，添加的是1范数

>>> from sklearn import linear_model
>>> reg = linear_model.Lasso(alpha = 0.1)
>>> reg.fit([[0, 0], [1, 1]], [0, 1])
Lasso(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)
>>> reg.predict([[1, 1]])
array([ 0.8])

sklearn中有Lasso的多种交叉验证方法。