机器学习(线性回归)

本文深入探讨了线性回归这一核心机器学习技术,介绍了其在监督学习中的应用,详细解析了线性模型的形式、参数估计方法及损失函数的概念,并讨论了最小二乘法和梯度下降法两种优化策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在机器学习中,回归、分类和标注共同构成了监督学习技术。监督学习(supervised learning)是机器学习在工业界应用最广的一个领域分支。在学术界中也是研究最多的领域之一。大家都知道的数据挖掘十大经典算法中,监督学习技术占据6席。
方法 | 自变量(特征) | 因变量(结果) | 关系

  • | :-: | -:
    线性回归 | 连续或离散| 连续实数 | 线性
    Logistic回归 | 连续或离散| (0,1)之间连续值 | 非线性
    线性回归(Linear Regression)基本形式一般用向量形式表示:f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b,其中w=(w1;w2;...;wd)w=(w1;w2;...;w_d)w=(w1;w2;...;wd),www和b学得之后,模型就得以确定。线性模型形式简单,易于建模,但却蕴涵着机器学习中一些重要的基本思想。许多功能更为强大的非线性模型也可以在线性模型的基础上通过引入层级结构或高纬度映射而得。此外,由于www 直观表达李各属性在预测中的重要性,因此线性模型有很好的可解释性。例如若在西瓜问题中学得“ f好瓜(x)=0.2∗x色泽+0.5∗x根蒂+0.3∗x敲声+1f_{好瓜}(x)=0.2*x_{色泽}+0.5*x_{根蒂}+0.3*x_{敲声}+1f(x)=0.2x+0.5x+0.3x+1 ”,则意味着可以通过综合考虑色泽丶根蒂和敲声来判断瓜好不好,其中根蒂最重要,而敲声比色泽更重要。

回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。在机器学习领域,人们说起回归,有时候是指一类问题,有时候是指一类算法,这一点常常会使初学者有所困惑。常见的回归算法包括:最小二乘法(Ordinary Least Square),逻辑回归(Logistic Regression),逐步式回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)以及本地散点平滑估计(Locally Estimated Scatterplot Smoothing)。

前面其实都是随心写的一些东西,下面正式进入我们的主题关于线性回归
如果只有一个x,yx,yx,y,那么我们可以这样表示(x,y)之间的关系:y=wx+by=wx+b y=wx+b
但是我们知道在机器学习中我们的数据集有很多数据,当推广到一个数据集有n个自变量,可以说是n个属性,这时候的线性模型可以表示为:y(x,w)=w0x0+w1x1+w2x2+...+wnxny(x,w)=w_0x_0+w_1x_1+w_2x_2+...+w_nx_ny(x,w)=w0x0+w1x1+w2x2+...+wnxn
x0=1x_0=1x0=1y(x,w)=hw(x)y(x,w)=h_w(x)y(x,w)=hw(x)
hw(x)=∑i=0nwixi=wTx⟹ojectionfunctionh_w(x)=\sum\limits_{i=0}^n{w_ix_i}=w^Tx\Longrightarrow{ojection function}hw(x)=i=0nwixi=wTxojectionfunction
如何估计得www 使得线性模型效果最佳?即hw(x)h_w(x)hw(x) 与真实值yyy 之差越小越好?
这时候我们就需要引入一个函数用来衡量hw(x)h_w(x)hw(x) 与真实值yyy 好坏的程度,这就是我们所称的损失函数(loss function),公式表示为:J(w)=12m∑i=1m(hwx(i)−y(i))2⟹lossfunctionJ(w)=\frac{1}{2m} \sum\limits_{i=1}^m{(h_wx^{(i)}-y^{(i)})}^2\Longrightarrow{loss function}J(w)=2m1i=1m(hwx(i)y(i))2lossfunction
我们需要 minJ(w)min J(w)minJ(w),如何调整www使J(w)J(w)J(w) 取最小值?经典的方法有最小二乘法和梯度下降法。
最小二乘法:w^∗=(XTX)−1XTy\hat{w}^* = (X^TX)^{-1}X^Tyw^=(XTX)1XTy
梯度下降法:J(w)=12m∑i=1m(hwx(i)−y(i))2J(w)=\frac{1}{2m} \sum\limits_{i=1}^m{(h_wx^{(i)}-y^{(i)})}^2J(w)=2m1i=1m(hwx(i)y(i))2
梯度下降法求解过程:
1)首先对www赋值,这个值可以是随机的,
2)改变www的值,使得J(w)J(w)J(w)按梯度下降的方向进行减少。
梯度方向由J(w)J(w)J(w)www的偏导数确定,由于求的是极小值,所以梯度方向是偏导数的反方向,迭代更新:
wj:=wj−(hwx(i)−y(i))xj(i)w_j :=w_j -{(h_wx^{(i)}-y^{(i)})}x_j^{(i)}wj:=wj(hwx(i)y(i))xj(i)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值