ML(三)线性模型

本文介绍了线性回归模型的基本概念和应用,包括一元和多元线性回归。通过最小二乘法和极大似然估计两种策略来确定模型参数,并探讨了线性模型的优缺点。此外,还提及了广义线性模型和对数线性回归的扩展。文章深入浅出地阐述了线性回归在预测和特征重要性评估中的作用。

3.1线性回归


引言

在生活中经常会遇到的一些问题,比如犯罪现场留下的鞋码大概估计嫌疑人的身高;又比如通过一个程序员的发际线高度来判断这个程序员的计算机水平;再比如买西瓜的时候,通过某个西瓜色泽、根蒂、敲声等来判断西瓜是好瓜还是坏瓜等等。一个吃过或者见过很多不同类型西瓜的吃瓜人,往往可以根据鉴瓜经验去判断西瓜的好坏。

把上面过程抽象出来就是:

利用一个已经训练好的带参(θ)模型M(有经验的吃瓜人)
根据样本的特征(西瓜色泽、根蒂、敲声等)预测样本的目标值(好瓜/坏瓜)。

在这里插入图片描述
那么要怎么成为一个有经验的吃瓜人呢?(也就是如何获得一个能解决目标问题的模型?)

可以通过品鉴不同的西瓜总结好瓜/坏瓜和西瓜特征之间的关系(模型通过观察大量与问题相关的样本,利用某种方式学习预测目标和特征之间的映射关系,或者说利用某种方式确定模型中的参数θθθ)。
在这里插入图片描述


机器学习三要素

根据上面的逻辑,可以梳理出利用机器学习方法解决实际需求的三个问题,并对应总结三要素:

  1. 应该选择什么模型去解决问题?
  2. 应该用什么策略引导该模型利用观测样本去学习模型中的参数?
  3. 应该用什么算法去求解模型参数?
  4. 模型:根据具体问题,确定假设空间(选择模型)。
  5. 策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)。
  6. 算法:求解损失函数,确定最优模型。

笔记部分

在这里插入图片描述

线性回归模型

模型

原理
线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数:

  • f(x)=w1x1+w2x2+…+wdxd+b=wTx+bf(\mathbf x)=w_1x_1+w_2x_2+…+w_dx_d+b=\mathbf w^T\mathbf x+bf(x)=w1x1+w2x2++wdxd+b=wTx+b

其目标就是通过观测样本利用某一种策略(常见的如最小二乘法、最大似然法)学习w\mathbf wwbbb。从而根据未知标签或预测量的新样本对应的特征,带入w\mathbf wwbbb,得预测结果。

对应到机器学习三要素中分别为:

  • 模型:线性回归模型,f(x)=wTx+bf(\mathbf x)=\mathbf w^T\mathbf x+bf(x)=wTx+b
  • 策略:常见如利用最小二乘法或最大似然法构建的loss function E(w,b)E_{(w,b)}E(w,b)求解w\mathbf wwbbb
    算法:求偏导∂E(w,b)∂w=0\frac{\partial E_{(w,b)}}{\partial w}=0wE(w,b)=0∂E(w,b)∂b=0\frac{\partial E_{(w,b)}}{\partial b}=0bE(w,b)=0,求解w\mathbf wwbbb的最优闭式解。
  • 线性模型优势 :由于w\mathbf ww直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性(comprehensibility),权重可以代表某类特征的重要性。

策略——构建loss function

我们先考虑输入属性的数目只有1个,即一元线性回归。

最小二乘法

基于最小化均方误差来进行模型求解的方法称为最小二乘法。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

均方误差的定义:

E(w,b)=∑i=1n(yi−f(xi))2E_{(w,b)}=\sum\limits_{i=1}^n(y_i-f(x_i))^2E(w,b)=i=1n(yif(xi))2

以均方误差作为loss function,argmin表示E(w,b)E_{(w,b)}E(w,b)取最小值时参数(w,b)(w,b)(w,b)的取值((w,b)(w^,b^)(w,b))。
策略就是让找到的直线的均方误差最小:
(w,b)=argmin(w,b)E(w,b)=argmin(w,b)∑i=1n(yi−wxi−b)2(w^,b^)=\mathop{arg min}\limits_{(w,b)}E_{(w,b)}=\mathop{arg min}\limits_{(w,b)}\sum\limits_{i=1}^n(y_i-wx_i-b)^2(w,b)=(w,b)argminE(w,b)=(w,b)argmini=1n(yiwxib)2

极大似然估计(主要摘自视频PPT)

使得观测样本出现概率最大的分布就是待求分布。

在这里插入图片描述


以一个案例展示利用极大似然法估计概率分布的参数:
在这里插入图片描述
在这里插入图片描述


在线性回归模型中,可以作进一步假设:
在这里插入图片描述

在这里插入图片描述


算法——求解参数
求解wwwbbb其本质上是一个多元函数求最值(点)的问题,更具体点是凸函数求最值的问题。
推导思路:
证明E(w,b)=∑i=1n(yi−wxi−b)2E_{(w,b)}=\sum\limits_{i=1}^n(y_i-wx_i-b)^2E(w,b)=i=1n(yiwxib)2时关于wwwbbb的凸函数;
用凸函数求最值的思路(求导)求解wwwbbb
在这里插入图片描述

注意:数分与高数的凹凸函数定义相反。凸函数的开口朝上。

证明E(w,b)E_{(w,b)}E(w,b)为凸函数


定理
在这里插入图片描述


梯度
在这里插入图片描述


海塞矩阵Hessian matrix
在这里插入图片描述


怎么证明矩阵半正定?

半正定矩阵的判定定理之一:

若实对称矩阵的所有顺序主子式均为非负,则该矩阵为半正定矩阵。

顺序主子式
在这里插入图片描述
在这里插入图片描述
凸函数求最值

  • 凸充分性定理
    在这里插入图片描述

求偏导∂E(w,b)∂w=0\frac{\partial E_{(w,b)}}{\partial w}=0wE(w,b)=0∂E(w,b)∂b=0\frac{\partial E_{(w,b)}}{\partial b}=0bE(w,b)=0,求解wwwbbb的最优闭式解。
在这里插入图片描述

多元线性回归

模型

  • 多元线性回归考虑了样本有超过1维属性的特征,即某个样本xix_ixi的属性向量为(xi1;xi2;…;xid)(x_{i1};x_{i2};…;x_{id})(xi1;xi2;;xid)
  • wwwbbb吸收入向量形式w^=(ω;b)\hat w=(ω;b)w^=(ω;b),相应的,把数据集DDD表示为一个m×(d+1)m×(d+1)m×(d+1)大小的矩阵XXX,其中每行对应于一个示例,该行前ddd个元素对应于示例的ddd个属性值,最后一个元素恒置为1,即:
    在这里插入图片描述

策略——构建loss function

最小二乘法
在这里插入图片描述

算法—求解参数

在这里插入图片描述
证明Ew^E_{\mathbf {\hat w}}Ew^为凸函数
在这里插入图片描述

矩阵微分证明可参考:

  • https://www.cnblogs.com/picassooo/p/12925575.html

凸函数求最值
同样利用求导的方法求解最值。
在这里插入图片描述

广义线性模型(generalized linear model)

考虑单调可微函数g(⋅)g(·)g(),称为”联系函数”(link funtin),令:

其形式上仍是线性回归,但实质上已是在求取输入空间到输出空间的非线性函数映射。

对数线性回归

g(⋅)=ln⁡(⋅)g(·)=\ln(·)g()=ln()时,为对数线性模型。

假设样本所对应的输出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目标,即:
在这里插入图片描述

Tips

线性回归和正交回归的区别

蓝色线段为线性回归计算loss的方式,而橙色线段为正交回归计算loss的方式。
在这里插入图片描述

离散、连续特征拼接方法

当有不同类型的特征时,如何拼接/融合不同的特征到模型中:

将离散和连续特征拼接在一起:
在这里插入图片描述


后续会有线性回归的代码复现以及其他模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值