Machine Learining —— Regression:Case Study

最新推荐文章于 2023-12-09 16:29:28 发布

原创最新推荐文章于 2023-12-09 16:29:28 发布 · 269 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

Machine Learning(Hung-yi Lee) 专栏收录该内容

18 篇文章

订阅专栏

问题导入：预测宝可梦的CP值

Estimating teh Combat Power(CP) of a pokemon after evolution
根据已有的宝可梦进化前后的信息，来预测某只宝可梦进化后的CP值大小

一、确定Senario、Task and Model

1、Senario

首先根据已有的data来确定Senario，已有一批宝可梦进化前后CP值的数据，input是进化前宝可梦的各种属性，output是进化后宝可梦的CP值；因此我们的data是labeled，使用的Senario是supervised Learning

2 、Task

根据我们想要的function的输出类型来确定Task，我们预期得到的是宝可梦进化后的CP值，是一个scalar，因此使用的Task是Regression

3、Model

关于Model的选择很多，这里采用的是Non-linear Model

4、设定参数

$X$ : 　　　表示一直宝可梦，用下标表示其属性
$X_{cp}$ : 　　表示宝可梦进化前的CP值
$X_s$ : 　　表示宝可梦的物种
$X_{hp}$ :　　表示宝可梦的生命值
$X_w$ :　　表示宝可梦重量
$X_h$ : 　　表示宝可梦高度
$f ()$ : 　表示function
$y$ ：　　表示function的output
在这里插入图片描述

二、Regression的具体步骤

1、明确Machine Learning的三个步骤：

定义一个model即function set
定义一个损失函数Loss评估goodness of function
找到一个最好的function

Step1：Model(function set)

凭经验选择最初的function

Linear Model 线性模型

$\cdot X_{cp}$
$y$ 代表进化后的CP值， $w$ 和 $b$ 代表未知参数

根据不同的w和b，可以确定不同的无穷的function， $\cdot X_{cp}$ 是抽象出来的model，是具体化的function的集合，即function set

可将Linear Model扩展为不仅包括CP值：
$+\Sigma w_ix_i$
$x_i$ : An attribute of input X, called featrue（特征值）
$w_i$ :weight of $x_i$
$b$ :　bias
在这里插入图片描述

Step2：Goodness of Function

参数说明

$x^i$ :表示第i个宝可梦
$\widehat{y}^i$ :用 $\widehat{y}$ 表示实际观察到的object输出，上标为i表示第i个object
注：由于Regression的输出值是scalar，因此 $\widehat{y}$ 里并没有component；但是之后若考虑structured Learning 时，output的object可能是有structured的，所以还是会需要用上下标表示一完整的output的object和其包含的component
在这里插入图片描述

Loss function 损失函数

为衡量function set中的某个function的好坏，需要一个Loss function，简称L，即function的function
$L (f) = L (w, b)$
input: a function
output: how bad/good it is

由于 $\cdot X_{cp}$ , 即f是由w和b决定的，因此Loss function实际上是在衡量一组参数的好坏

Loss function的选择：
最常用的方法是采用类似于方差和的形式来评估，即预测值与真实值差的平方和（Estimate error）
$b)=\Sigma_{n=1}^{10}(\widehat{y}^n-(b +w\cdot x_{cp}^n))^2$
若是 $L (f)$ 越大，说明function表现越不好
在这里插入图片描述

Loss function可视化

下图是Loss function的可视化，图中每一点代表一组（w，b）对应一个function，而该点的颜色对应着loss function的结果L(w，b)，颜色越偏红色代表function表现越不好，越偏蓝色代表Loss值越小
在这里插入图片描述

Step3：Pick the Best Function

选择最好的function：
$f^*=\mathop{argmin}\limits_f L(f)$ ，或者
$w^*,b^*=\mathop{argmin}\limits_{w,b} L(w,b)=\mathop{argmin}\limits_{w,b}\Sigma_{n=1}^{10}(\widehat{y}^n-(b +w\cdot x_{cp}^n))^2$
在这里插入图片描述
为找到Best function，利用线性代数的知识，采用Gradient descent(梯度下降法)

Gradient Descent(梯度下降法)

gradient descent的优点在于，只要L(f)可微分，都可以用梯度下降法处理f，找到合适的parameters

单个参数时

以只带单个参数w的L(w)为例，首先要保证L(w)是可微的，实际上就是寻找L(w)斜率为0的global minima（有些函数也存在local minima）

首先随机选取一个初始的点 $w^0$
计算 $L$ 在 $w= w^0$ 位置的微分，即 $\frac{\mathrm{d} L }{\mathrm{d} {w}}$ $_{w= w_0}$
如果斜率是negative负的，那么就应该增大w；如果斜率是positive正的，就应该减小w。每一步的步长step size的就是w的改变量
step size的取值
①微分值 $\frac{\mathrm{d} L }{\mathrm{d} {w}}$ 的大小：微分值越大说明处在一个越陡峭的地方，那么移动的步长应该越大，反之越小
② $\eta$ 学习率(learning rate):如果 $\eta$ 越大，每移动一步，参数w的更新幅度就越大，反之越小
每次参数更新的大小为 $\eta\frac{\mathrm{d}L}{\mathrm{d}w}$ ，为了满足斜率为负时w向增大方向移动，斜率为正时w向减小方向移动，应当是原来的w减去更新的数值，即
$w^1 = w^0-\eta\frac{\mathrm{d}L}{\mathrm{d}w}$ $_{w= w_0}$
$w^2 = w^1-\eta\frac{\mathrm{d}L}{\mathrm{d}w}$ $_{w= w_1}$
$w^3 = w^2-\eta\frac{\mathrm{d}L}{\mathrm{d}w}$ $_{w= w_2}$
$\frac{\mathrm{d}L}{\mathrm{d}w}$ $_{w= w_i}== 0$
$t h e n$ $s t o p$
此时的 $w_i$ 对应的斜率为0，当微分为0时，参数就不再更新，但是此时通过Gradient descent找出来solution其实并不一定是global minima
但是在linear regression上，没有local minima

多个参数时

关于宝可梦的问题，是包含two parameters的问题，即 $(w^*,b^*)=\mathop{argmin}\limits_{w,b}L(w,b)$

首先随机选取两个初始值 $w^0,b^0$
然后分别计算（ $w^0,b^0$ ）点处的偏微分，即
$\frac{\partial L}{\partial w}$ $_{w=w_0}$ , $\frac{\partial L}{\partial b}$ $_{b=b_0}$
更新参数
$w^1 = w^0-\eta\frac{\partial L}{\partial w}$ $_{w= w_0,b=b_0}$ $b^1 = b^0-\eta\frac{\partial L}{\partial b}$ $_{w= w_0,b=b_0}$
$w^2 = w^1-\eta\frac{\partial L}{\partial w}$ $_{w= w_1,b=b_1}$ $b^2 = b^1-\eta\frac{\partial L}{\partial b}$ $_{w= w_1,b=b_1}$
$w^3 = w^2-\eta\frac{\partial L}{\partial w}$ $_{w= w_2,b=b_2}$ $b^3 = b^2-\eta\frac{\partial L}{\partial b}$ $_{w= w_2,b=b_2}$

可视化效果如图
在这里插入图片描述
每次计算得到的梯度gradient，即由 $\frac{\partial L}{\partial w}$ 和 $\frac{\partial L}{\partial b}$ 组成的vector向量，就是图上等高线的法线方向；而( $-\eta\frac{\partial L}{\partial w}$ , $-\eta\frac{\partial L}{\partial b}$ )的作用就是让原先的( $w^i,b^i$ )朝着gradient的方向前进，其中 $\eta$ 的作用是每次更新的跨度
注：这里两个方向的 $\eta$ 必须保持一致，这样每次更新坐标的step size是等比缩放的，保证前进的方向始终和梯度下降的方向一致，否则坐标前进的方向将会发生偏移

在linear regression里，loss function是convex的（凸函数），没有local optimal局部最优解，只有global optimal

三、Pokemon问题

根据gradient descent，计算得到 $b+w\cdot x_{cp}$ 中最好的参数是b=-188.4，w=2.7
接着将training data中每一只宝可梦i进化后的CP值与预测值之差的绝对值称为 $e^i$ ，而这些误差之和Average Error on Training Data is $\Sigma_{i=1}^{10}e^i=31.9$
用这个function应用在generalization的case中，于是有抓了10只新的pokemon，算出Average Error on Testing Data is $\Sigma_{i=1}^{10}e^i=35$
在这里插入图片描述

How can we do better

重新设计Model

考虑 $x_{cp})^2$ 的model

在这里插入图片描述

考虑 $x_{cp})^3$ 的model

在这里插入图片描述

考虑 $x_{cp})^4$ 的model

在这里插入图片描述

考虑 $x_{cp})^5$ 的model

在这里插入图片描述
这5个model在training data的表现 $x_{cp})^i$ 的高次项的增加，对应的average error会不断减小

在training data上，model越复杂，error就会越低；但是在testing data上，model复杂到一定程度后，error非但不会减小，反而会暴增，通常被称为overfitting（过拟合）
在这里插入图片描述

进一步讨论其他参数

物种 $x_s$ 的影响

除CP值外，还可能受到物种 $x_s$ 的影响
在这里插入图片描述
于是需要重现设计model：
$\quad x_s = pidgey:$ $b_1+w_1\cdot x_{cp}$
$\quad x_s = Weedle:$ $b_2+w_2\cdot x_{cp}$
$\quad x_s = Caterpie:$ $b_3+w_3\cdot x_{cp}$
$\quad x_s = Eevee:$ $b_4+w_4\cdot x_{cp}$
将上面的if语句合并linear model：
在这里插入图片描述
利用新的model，分别得到在training data和testing data上测试的结果：

HP值 $x_{hp}$ 、height值 $x_h$ 、weight值 $x_w$ 的影响

考虑所有的可能影响参数，设计出更为复杂的model：
$\quad x_s = pidgey:$ $b_1+w_1\cdot x_{cp}+ w_5\cdot(x_{cp})^2$
$\quad x_s = Weedle:$ $b_2+w_2\cdot x_{cp}+ w_6\cdot(x_{cp})^2$
$\quad x_s = Caterpie:$ $b_3+w_3\cdot x_{cp}+ w_7\cdot(x_{cp})^2$
$\quad x_s = Eevee:$ $b_4+w_4\cdot x_{cp}+ w_8\cdot(x_{cp})^2$
$y^＇+w_9\cdot x_{hp}+w_{10}\cdot (x_{hp})^2+w_{11}\cdot x_{h}+w_{12}\cdot (x_{h})^2+w_{13}\cdot x_{w}+w_{14}\cdot (x_{w})^2$
算出的training error = 1.9，但是testing data = 102.3，发生了overfitting

利用regularization解决overfitting（L2正则化解决过拟合问题）

regularization可以使曲线变得更加smooth

原来的loss function 只考虑了prediction error；而regularization则是在原来的loss function的基础上加上一项 $\lambda\Sigma(w_i)^2$ ，把这个model里面所有的 $w_i$ 的平方和用 $\lambda$ 加权，也就是说，我们期待 $w_i$ 越小甚至接近于0的function
因为参数值接近0的function，是比较平滑的，当input有变化时，output对输入的变化比较不敏感
在这里插入图片描述
此处的 $\lambda$ 需要手动进行调整
$\lambda$ 值越大代表考虑smooth的那个regularization那一项影响越大，function越平滑

注：我们期待比较平滑的function，因为它对noise不那么sensitive；但是function太平滑的话就失去了对data的拟合能力；而function的平滑程度，需要通过调整 $\lambda$ 来决定

Conclusion总结

关于pokemon的CP值预测流程：

根据已有的data的特点，确定使用supervised learning（监督学习）
根据output的特点，确定使用regression（回归）
考虑包括进化前CP值、species、hp等各方面变量属性已经高次项的影响，model采用更为复杂的一次项和二次型之和形式
为了保证function的平滑性，loss function应使用regularization即
$\Sigma_{i=1}^n(\widehat{y}^i-y^i)^2+\lambda\mathop{\Sigma}\limits_j(w_j)^2$
利用gradient descent对regularization版本的loss function进行梯度下降迭代处理
假设所有的参数合成一个vector： $w_0,w_1,w_2,...,w_j,...,b]^T$ ，那么每次梯度下降的表达式为：
$梯度：\nabla L= \begin{bmatrix} \frac{\partial L}{\partial w_0} \\ \frac{\partial L}{\partial w_1} \\ \frac{\partial L}{\partial w_2} \\ \vdots \\ \frac{\partial L}{\partial w_j} \\ \vdots \\ \frac{\partial L}{\partial b} \\ \end{bmatrix} _{gradient} \quad gradient descent = \begin{bmatrix} w_0^＇ \\ w_1^＇ \\ w_2^＇ \\ \vdots \\ w_j^＇ \\ \vdots \\ b^＇ \\ \end{bmatrix} _{L=L^＇} \quad = \begin{bmatrix} w_0 \\ w_1 \\ w_2 \\ \vdots \\ w_j \\ \vdots \\ b \\ \end{bmatrix} _{L=L_0} \quad - \eta \begin{bmatrix} \frac{\partial L}{\partial w_0} \\ \frac{\partial L}{\partial w_1} \\ \frac{\partial L}{\partial w_2} \\ \vdots \\ \frac{\partial L}{\partial w_j} \\ \vdots \\ \frac{\partial L}{\partial b} \\ \end{bmatrix} _{L=L_0}$
$\lambda$ 需要我们不断调整来获取
先设定 $\lambda$ -->确定loss function -->找到使loss最小的 $w_0,w_1,w_2,...,w_j,...,b]^T$ -->确定function -->计算error -->重新设定 $\lambda$ 重复上述步骤 -->使testing data上的error最小的 $\lambda$ 所对应的 $w_0,w_1,w_2,...,w_j,...,b]^T$ 对应的function就是最佳function