【机器学习】西瓜书 03 线性回归模型

Biophilia_hyb

已于 2022-09-21 14:25:51 修改

阅读量708

点赞数

分类专栏： Machine Learning 文章标签：机器学习线性回归

于 2022-09-16 10:10:03 首次发布

本文链接：https://blog.youkuaiyun.com/wyw970624/article/details/126884740

版权

03 线性模型

文章目录

03 线性模型

机器学习三要素

模型：根据具体问题，确定假设空间
策略：根据评价标准，确定选取最优模型的策略（通常会导出一个损失函数）
1. 策略一：最小二乘法
2. 策略二：极大似然估计法
算法：求解损失函数，确定最优模型
1. 闭式解
2. 近似最值解

3.1 一元线性回归算法原理

在这里插入图片描述

考虑这样一个问题🐶：我们拥有程序员的发际线高度 $X={x_1,x_2,...x_i,...x_m}$ ，和她们的计算机水平 $Y={y_1,y_2,...,y_i,...,y_m}$ 的一批数据，现在来研究这两者之间的关系。根据数据散点图，我们可以直观地画出一条直线 $f (x) = w x + b$ ，令这些数据点 $x_i,y_i)$ 到直线的距离最短，那么这条直线就是所求的线性回归模型。其中，观察点到直线的距离，可以是垂直距离（绿色线段），也可以是欧式距离 $y - f (x)$ （红色线段）。我们把依赖于前者的方法叫作正交回归，依赖于后者的方法叫作线性回归。

上述问题是简单的一元回归问题，从发际线高度这一特征，来预测其计算机水平。当然还有很多其他的案例，比如信用卡额度预测问题，特征是用户的信息（如年龄，性别，年薪……），我们来预测给用户多大的信用额度，这样类似的问题都是回归问题，目标值 $y$ 隶属于实数空间 $R$ 。

根据输入特征的数目和特征值之间的“序”关系，我们可以对特征取值进行转化。

仅通过 发际线高度 预测 计算机水平：

$f(x)=w_1x_1+b$
+二值离散特征颜值 (好看：1，不好看：0)

$f(x)=w_1x_1+w_2x_2+b$
+有序的多值离散特征饭量 (小：1，中：2，大：3)

$f(x)=w_1x_1+w_2x_2+w_3x_3+b$
+无序的多值离散特征肤色 (黄：[1,0,0]，黑：[0,1,0]，白：[0,0,1])

$f(x)=w_1x_1+w_2x_2+w_3x_3+w_4x_4+w_5x_5+w_6x_6+b$

3.1.1最小二乘法

本书中讨论的是线性回归问题，线性回归假设 $f(x)=w^Tx+b$ 。我们用均方误差作为回归问题中的性能度量，得到损失函数 $E_{(w,b)}$ 。

$E_{(w,b)}=\Sigma_{i=1}^m(y_i-f(x_i))^2=\Sigma_{i=1}^m(y_i-wx_i-b)^2$

基于均方误差最小化对模型求解的方法称为 最小二乘法（Least Square Method），表达式为 $\arg\min_{(w,b)}\Sigma_{i=1}^m(y_i-wx_i-b)^2$ ，这里的 $arg\min_{(w,b)}$ 表示求解使得式子达到最小值的 $w$ 和 $b$ 。

3.1.2极大似然估计法

根据一元线性回归公式推导，我们发现使用极大似然估计(Maximum Likelihood Estimation)可以得到同样的损失函数。

目的：估计概率分布的参数值，如正态分布的参数均值和方差 $\mu,\sigma^2$

方法：对于离散随机变量 $X=\{x_1,x_2,...,x_n\}$ ， $x_i$ 是已知的独立同分布(i.i.d)随机变量，假设概率质量函数 $P(x;\theta)$ ， $\theta$ 为待估计的参数(可以是多个参数)，那么 似然函数 为 $L(\theta)=\prod_{i=1}^nP(x_i;\theta)$ 。我们考虑使得观测样本出现概率最大的分布，就是所求的分布。

根据线性回归假设，再考虑随机误差 $\epsilon \sim N(0,\sigma^2)$ ，我们可以得到线性模型 $y=wx+b+\epsilon$ 。

根据正态分布概率密度函数公式， $p(\epsilon)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{\epsilon^2}{2\sigma^2})$ ，

把 $\epsilon=y-wx-b$ 代入上述公式，得到 $y$ 的概率密度函数： $p(y)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y-(wx+b))^2}{2\sigma^2})$ ，

即 $\sim N(wx+b,\sigma^2)$ 。

计算似然函数 $L(w,b)=\prod_{i=1}^mp(y_i)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y_i-(wx_i+b))^2}{2\sigma^2})$ ，

为了便于计算，对似然函数取对数，变乘为加， $\ln L(w,b)=\Sigma_{i=1}^m\ln\frac{1}{\sqrt{2\pi}\sigma}+\Sigma_{i=1}^m\ln\exp(-\frac{(y_i-(wx_i+b))^2}{2\sigma^2})=m\ln\frac{1}{\sqrt{2\pi}\sigma}+-\frac{1}{2\sigma^2}\Sigma_{i=1}^m(y_i-(wx_i+b))^2$