【吴恩达机器学习】梯度下降线性回归模型和正规方程

Mr.stupidCoder

已于 2023-11-16 14:52:28 修改

阅读量188

点赞数 1

分类专栏：吴恩达机器学习文章标签：机器学习线性回归人工智能数学建模

于 2023-11-16 14:48:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_58272336/article/details/134440014

版权

吴恩达机器学习专栏收录该内容

1 篇文章

订阅专栏

本文详细探讨了梯度下降法在线性回归中的应用，包括Batch梯度下降、偏导数求解、特征缩放与均值归一化对模型的影响，以及正规方程求解θ的原理。对比了两种方法的优缺点，强调了学习率选择的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降线性回归模型和正规方程

线性回归模型

在这里插入图片描述

h_θ(x)为线性回归模型，由两个值θ₀和θ₁进行控制。

J(θ₀,θ₁)称为代价函数，表示实际训练值和回归模型拟合值的关系。可以知道代价函数对应的值越小，则拟合效果越好。

m：训练集

例：此处使用线性回归模型来拟合房间大小对应的价格高低，且假设影响因素为θ₀和θ₁。

图 1 图 2

左图体现了了代价函数的总体趋势（凹），可以发现存在代价最低的一个点，因此如何找到此点对应的θ₁和θ₁成为我们的主要问题。

右图通过给θ₀和θ₁分别赋值后的线性回归函数拟合效果，可以看出和实际数据集偏差比较大。如果找到代价函数最小值，那么拟合效果将最优。

梯度下降算法

图3

“:=” 意思是将右侧表达式的值赋值给左侧表达式，Truth assertion意为数学断言中两侧是否相等。
偏导数的具体作用是帮助找到最小值：导数实际上是曲线斜率，从图1中将θ₀视为常数，θ₁为自变量时，此时代价函数为二次抛物线（图4）。而要找到代价函数最低点，此时图3 中初始点的 θ₁ 减去导数项,意味着离最低点就更近（斜率正负均一样），且曲线越接近最低值，斜率越小，收敛速度将变慢。
α：学习速率，即在进行梯度下降时，每一步的大小。
梯度下降应该是同步的，即应该算出temp0、temp1后再更新θ₀和θ₁，如果算出temp0后立马更新θ_0，则θ_1的更新将会出现问题（不同步）。

图4 图 5

图4说明：在进行梯度下降时寻找最小值点时，偏导数（斜率）的正负、大小对寻找的影响。

图5说明：α过大和过小的情况下会出现寻找不到（发散），和速度太慢（收敛速度太慢，需要迭代的次数将增加）。

图6 图7

图6：解释了当找到局部最小值时（偏导数为0），根据梯度下降算法，θ将不会再进行更新。

图7：由图易知，图像初始斜率大即偏导数值大，那么更新幅度就会大，当再更新时曲线斜率（偏导数）变小，那么更新幅度就会逐步变小。当我们接近局部最小值时，梯度下降算法会自动采用更小的学习速率α，确保不会越过最小值点。

Batch梯度下降法（梯度下降的线性回归）

求偏导数

代入梯度下降算法

梯度下降法寻找最小值的图示过程

多元线性回归假设的形式

将线性代数应用到多元线性回归模型中

此处假设影响房价的因素仅有4个，**x⁽ⁱ⁾**表示4个因素构成的向量，**x⁽ⁱ⁾_j**表示向量中具体值。

用θ向量表示从θ₀，θ₁，……，θ_n且θ为n+1维向量，X同理。X₀默认为1。多元线性回归方程可表示为两个向量(θ和X)的乘积。

将代价函数带入到梯度下降算法后，梯度下降算法更新将应用到θ₀，θ₁，……，θ_n。

特征缩放和均值归一化

特征缩放（Feature Scaling）通常是在数据预处理阶段，将不同量纲或量程的数据转换到同一量纲下或某个特定区间内。这样做可以使得模型训练更快，更容易找到全局最优解。

特征范围并不用完全在-1到1内和外，只要与这个范围足够接近，但是不要过大或过小。梯度下降法都会正常工作。

均值归一化（Normalization）通常是将特征的值缩放到一个固定的范围，如 [0, 1]。常用的归一化方法是 Min-Max Scaling，其计算公式为：

在这里插入图片描述

学习率α促进梯度下降

左图描述了求得最小代价函数随着迭代次数的变化。右图描述了不同的学习率α对寻找最小代价函数的影响。

即：如果α太小，收敛过慢；α过大，可能会发散。因此选择一个合适的α是至关重要的；你可以尝试不同数量级（0.0001->0.001->0.01 etc.）

正规方程求θ

在这里插入图片描述

当正规方程为J(θ) = aθ²+bθ +c时，通过求导可以快速得出θ在某处时，J(θ)的导数为0，此时θ为所求值。

一般地通过正规方程法求θ并不会像上述例子那样简单，所以通用解法如下：

在这里插入图片描述

此处Octave是一种编程工具，你可以在其中计算θ。

例如：

正规方程法不需要特征缩放

梯度下降法和正规方程法的优劣

在训练集为m,特征量为n的情况下：

梯度下降法：

需要选择一个合适的α。
需要许多次迭代才能得出结果。
适合特征数量较多的情况（大约在n=10⁶）

正规方程法：

不需要选择α。
不需要迭代。
需要去计算**(X^TX)^-1**。
如果特征数量较多，计算将会很慢。

博客等级

码龄4年

17
原创

132
点赞

236
收藏

89
粉丝

关注

私信

热门文章

分类专栏

吴恩达机器学习 1篇
vue 1篇
android 1篇
c数据结构 2篇
spring boot 1篇
java 1篇

展开全部收起

最新评论

【yolo特征可视化原理】
wxylqw2543: 博主你好，我想让它只保存某几个stage的特征张量而不是全部，这该怎么改呢？
【yolo特征可视化原理】
Mr.stupidCoder: 我对yolo训练时的过程不太清楚，目前只知晓整个预测过程用到的哪些函数以及作用。也许你可以试一下将visualize=True作为训练时的一个参数，也许能输出特征图？
【yolo特征可视化原理】
萤火腐草: 博主你好，我想问一下yolov8是不是只能在预测的时候可以可视化特征图啊？我要是想在训练过程的时候保存每一层的输出是要自己写函数吗？
【YOLOv10训练预测时碰到的问题】
Mr.stupidCoder: torch版本过高，降低torch版本到2.3.1及以下
【YOLOv10训练预测时碰到的问题】
nidezhangda: WARNING ⚠️ Known issue with torch>=2.4.0 on Windows with CPU, recommend downgrading to torch<=2.3.1 to resolve https://github.com/ultralytics/ultralytics/issues/15049 这个问题怎么解决的？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。