吴恩达 机器学习笔记四(lecture 4)(多特征值,梯度下降与Normal equation)

本文介绍了线性回归在处理多个特征值时的应用,包括多特征值线性回归的假设函数形式,梯度下降法的详细步骤,如特征规模、学习率的选择以及特征和多项式回归。还探讨了标准方程法(Normal Equation),并对比了梯度下降和Normal Equation的适用情况。重点讨论了特征规模对模型的影响和如何处理线性相关特征问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


线性回归处理多个特征值

(Linear Regression with multiple variables)



1、多特征值线性回归的假设函数形式


在之前的房价预测例子中,我们看到只有房屋面积一个特征值,现在增加特征值,比如,房屋使用时间,房间的数量,房屋楼层数等等n个features。就表示第i个样本的特征向量,表示第j个特征在第i个样本中的值。



假设函数就变成了 ,这里假设第一个特征值x0为1.所以可以写成参数向量的转置乘以样本特征向量。



2、梯度下降


(1)Gradient descent for multiple variables




(2)特征规模(Feature Scaling)


如果特征规模差别很大的画,得到的损失函数的图像不光滑,导致不利于函数的收敛,可以采用均值归一化的方法对其进行缩放



 

(3)学习率(Learning rate)


一般看到不再变小就证明已经收敛,



当学习率太小,会让收敛速度很慢,学习率太大会让有可能不是每一个迭代都会变小,还有可能不会收敛。对于学习率一般这么选择:0.001~0.003~0.01~0.03~0.1~0.3这样三倍选择。



(4)特征和多项式回归(Features and polynomial regression)


对于房价预测的例子,如果有两个特征分别表示房屋地基的长和宽,那么我们可以用一个特征值s表示长和宽的乘积来设置假设函数


关于房价预测,如果是一个三次多项式能比较好的拟合数据的话,可以把特征值转换成这样又变成了的线性回归形式。但是要注意归一化处理,因为特征值之间规模差别太大。



当然还有一些特征值的选择可能能更好拟合数据



3、标准方程法(Normal equation)


只用一次数学意义上的计算就能把所有的 θ 值都求出,当θ是标量时,就直接求出导数为 0 的点即可,当θ是向量时, 要分别求出向量中的每个元素的偏导数令其为0




依然是房价预测的例子,构造如下的矩阵:X,参数向量即为所求。也不需要考虑特征规模的问题。





公式证明:(这里要注意只有方阵才有逆矩阵,所以不能直接乘以X的逆,X转置乘以X为方阵)


假设函数:                                                                y=Xθ



首先在等式两边同时左乘一个 XT,得到:              XT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值