【Machine Learning】Ch3.2 线性回归

最新推荐文章于 2024-10-25 19:23:15 发布

原创最新推荐文章于 2024-10-25 19:23:15 发布 · 338 阅读

0 ·

CC 4.0 BY-SA版权

ML 专栏收录该内容

6 篇文章

订阅专栏

本文深入解析线性回归原理，探讨如何通过最小二乘法求解参数，实现模型预测。覆盖一元及多元线性回归，详细推导参数估计过程。

部署运行你感兴趣的模型镜像

3.2 线性回归

线性回归的目的是，给定数据集 $D=\{(x_1,y_1),(x_2,y_2)...(x_m,y_m)\}$ ，其中 $x_i=(x_{i1};x_{i2};...;x_{id})$ ， $yi∈Ry_i \in R$ 。线性回归试图学得一个线性模型 $f(x_i)=wx_i+b$ 使得 $f(xi)≃yif(x_i)\simeq y_i$

书中所说的序的关系，是一种可以进行量化的关系。例如将表示程度的名词，用 $[0, 1] $ 区间的实数进行量化。有些是不能量化的，如种类。书中提到的瓜的种类就是一个例子。若有几类瓜，则转换为几维向量。可以将向量的每一维看做一个布尔变量，若为1表示隶属于这种瓜。

为了求解参数 $w, b $ ，采用均方误差作为性能度量。显然均方误差越小越好，线性回归任务可以表示为

$min(w,b)∑i=1m(yi−wxi−b)2(w^*,b^*)=arg\ min_{(w,b)}\sum_{i=1}^{m}(f(x_i)-y_i))^2=arg\ min_{(w,b)}\sum_{i=1}^{m}(y_i-wx_i-b)^2$

$minarg\ min$ 表示当 $m i n$ 后面表达式中取最小值的时候，参数的取值，上式中 $w^*,b^*)=arg\ min_{(w,b)...}$ 就是表示当后面的表达式取最小值的时候，参数（变量） $w, b$ 的值作为解 $w^*,b^*$ 。

均方误差对应了欧式距离，基于均方误差最小化来进行模型求解的方法也叫作最小二乘法。如果输入 $x_i$ 只有一维，也就是一元线性回归，那么和高中的最小二乘法拟合直线方程并没有什么区别。线性回归任务，也是找到一条直线，使得样本到直线上的欧式距离之和最小。

此处假设 $x_i$ 只有一维，即一元线性回归。
令 $E(w,b)=∑i=1m(yi−wxi−b)2E_{(w,b)}=\sum_{i=1}^{m}(y_i-wx_i-b)^2$ ，求解 $w, b$ 使得 $E_{(w,b)}$ 最小化的过程，称为线性回归模型的最小二乘参数估计。将 $E_{(w,b)}$ 分别对 $w, b$ 求导。

$∂E(w,b)∂w=2(w∑i=1mxi2−∑i=1m(yi−b)xi)\frac{\partial E_{(w,b)}}{\partial w}=2(w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i)$

$∂E(w,b)∂b=2(mb−∑i=1m(yi−wxi))\frac{\partial E_{(w,b)}}{\partial b}=2(mb-\sum_{i=1}^m(y_i-wx_i))$

由于 $E_{(w,b)}$ 是凸函数，所以导数为0即可得到最优解的闭式。

$w=∑i=1myi(xi−xˉ)∑i=1mxi2−1m(∑i=1mxi)2w=\frac{\sum_{i=1}^my_i(x_i-\bar{x})}{\sum_{i=1}^mx_i^2-\frac{1}{m}(\sum_{i=1}^mx_i)^2}$

$b=1m∑i=1m(yi−wxi)b=\frac{1}{m}\sum_{i=1}^m(y_i-wx_i)$

更一般的情况，样本由多个属性组成，学习目标为 $f(x_i)=w^Tx_i+b$ 使得 $f(xi)≃yif(x_i)\simeq y_i$ 。称为多元线性回归。

$w $ 是每个属性前面的权值( $d \times 1 $ 的列向量)，考虑到偏置项(常数项) $b $ ，将 $b $ 也吸入进向量形式，即 $w^=(w;b)\hat{w}=(w;b)$ ( $(d + 1) \times 1 $ 的列向量)。而 $X $ 是一个矩阵( $m \times d $ )，每一行是一条数据记录，列对应一个属性。引入偏置项后，需要在最右侧增加一列1，变成 $m \times (d + 1) $ 的矩阵。这样可以求得

$w^∗=arg minw^(y−Xw^)T(y−Xw^)\hat{w}^*=arg\ min_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w})$

令 $Ew^=(y−Xw^)T(y−Xw^)E_{\hat{w}}=(y-X\hat{w})^T(y-X\hat{w})$ 。类似的，导数为0的时候可以求出闭解形式，首先要解决的是矩阵求导的问题，这里用两种方式求解 $Ew^E_{\hat{w}}$ 的导数。下面会涉及到一些矩阵论的内容，使用到的式也会一并给出。

方法一

用到的公式： $dABdB=AT,dATBdA=B,XTAXdX=2AX\frac{dAB}{dB}=A^T,\frac{dA^TB}{dA}=B,\frac{X^TAX}{dX}=2AX$

$Ew^=(y−Xw^)T(y−Xw^)=(w^TXTXw^−w^TXTY−YTXx^−YTY)E_{\hat{w}} \\ =(y-X\hat{w})^T(y-X\hat{w}) \\=(\hat{w}^TX^TX\hat{w}-\hat{w}^TX^TY-Y^TX\hat{x}-Y^TY)$

则

$dEw^dw^=d(w^TXTXw^−w^TXTY−YTXx^−YTY)dw^=dw^TXTXw^dw^−dw^TXTYdw^−dYTXx^dw^−dYTYdw^\frac{dE_{\hat{w}}}{d\hat{w}} = \frac{d(\hat{w}^TX^TX\hat{w}-\hat{w}^TX^TY-Y^TX\hat{x}-Y^TY)}{d\hat{w}} = \frac{d\hat{w}^TX^TX\hat{w}}{d\hat{w}} - \frac{d\hat{w}^TX^TY}{d\hat{w}} - \frac{dY^TX\hat{x}}{d\hat{w}} - \frac{dY^TY}{d\hat{w}} $

根据公式 $dw^TXTXw^dw^=2XTXw^,dw^TXTYdw^=XTY,dYTXx^dw^=XTY,dYTYdw^=0\frac{d\hat{w}^TX^TX\hat{w}}{d\hat{w}} = 2X^TX\hat{w}, \frac{d\hat{w}^TX^TY}{d\hat{w}} = X^TY, \frac{dY^TX\hat{x}}{d\hat{w}} = X^TY, \frac{dY^TY}{d\hat{w}} = 0$

那么 $dEw^dw^=2XTXw^−2XTY=2XT(Xw^−Y)\frac{dE_{\hat{w}}}{d\hat{w}} = 2X^TX\hat{w}-2X^TY=2X^T(X\hat{w}-Y)$

方法二

用到的公式： $df=∑i=1n∂f∂xidxi=∂fT∂xdxdf=\sum_{i=1}^{n}\frac{\partial f}{\partial x_i}dx_i = \frac{\partial f^T}{\partial x}dx$

$d[(y−Xw^)T(y−Xw^)]=d(y−Xw^)T(y−Xw^)+(y−Xw^)Td(y−Xw^)=∂(y−Xw^)∂w^(y−Xw^)dw^+(y−Xw^)T∂(y−Xw^)Tw^dw^=(XTXw^−XTY)dw+(w^TXTX−YTX)dw=(XTXw^−XTY+w^TXTX−YTX)dw=[(XTXw^−XTY)+(XTXw^−XTY)]dw=2XT(Xw^−Y)dwd[(y-X\hat{w})^T(y-X\hat{w})] \\ = d(y-X\hat{w})^T(y-X\hat{w}) + (y-X\hat{w})^Td(y-X\hat{w}) \\ =\frac{\partial (y-X\hat{w})}{\partial \hat{w}}(y-X\hat{w})d\hat{w} + (y-X\hat{w})^T\frac{\partial (y-X\hat{w})^T}{\hat{w}}d\hat{w} \\=(X^TX\hat{w}-X^TY)dw + (\hat{w}^TX^TX-Y^TX)dw \\ = (X^TX\hat{w}-X^TY+\hat{w}^TX^TX-Y^TX)dw \\ = [(X^TX\hat{w} - X^TY) + (X^TX\hat{w}-X^TY)]dw \\ =2X^T(X\hat{w}-Y)dw$

令 $2XT(Xw^−Y)=02X^T(X\hat{w}-Y)=0$ ，即可得出 $w^∗=(XTX)−1XTy\hat{w}^*=(X^TX)^{-1}X^Ty$

您可能感兴趣的与本文相关的镜像

AutoGPT

AI应用

AutoGPT于2023年3月30日由游戏公司Significant Gravitas Ltd.的创始人Toran Bruce Richards发布,AutoGPT是一个AI agent（智能体），也是开源的应用程序，结合了GPT-4和GPT-3.5技术，给定自然语言的目标，它将尝试通过将其分解成子任务，并在自动循环中使用互联网和其他工具来实现这一目标