使用矩阵的迹推导最小二乘法的解(cs229-lecture2)

这篇博客介绍了如何使用矩阵的迹来推导最小二乘法的解,将此方法与神经网络的线性回归问题联系起来。通过假设函数和损失函数的设定,展示了从求解loss的导数到找到最小值的推导过程,利用矩阵的迹和几个关键的数学公式,最终得出与梯度下降法一致的最小二乘法解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前写了一篇最小二乘法进行曲线拟合,当时就觉得这个过程其实和神经网络的线性回归很像。是否可以用同样的方法来求解线性回归的问题,而不用梯度下降呢?后来在cs229的第二课中刚好看到了这个内容,感觉推导方式更加的精妙,这里记录一下推导过程方便以后回顾。

假设我们需要预测房价,有n个feature会影响房价,比如房子大小,修建年份,装修情况,房屋个数,所处位置等等。我们搜集了m组这些feature和房价之间的对应关系,得到m组样本(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)}),其中x^{(i)} = [x^{(i)}_0,x^{(i)}_1,...,x^{(i)}_n]^{T}表示输入的feature有n+1个维度,其中x_0^{i}=1是为了与偏置\theta_0计算方便。

对于这种由n维预测1维的模型就是一个简单的1层神经网络,我们的假设函数如下:

h(x) = \sum_{i=0}^{n}\theta_ix_i=\theta^{T}x=x^{T}\theta,其中\theta = [\theta_0, \theta_1, \theta_2, ... , \theta_n]^{T}

为了让预测曲线很好的拟合数据,使用最小二乘法的loss

J(\theta) = \frac{1}{2}\sum_{i=1}^{m}[h_\theta(x^{(i)}) - y^{(i)}]^{2}=\frac{1}{2}\sum_{i=1}^{m}((x^{(i)})^{T}\theta - y^{(i)})^{2}

当我们写出loss后,正常情况下我们就知道可以使用梯度下降进行最小值逼近,事实上这种loss结构是一个标准的碗型,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值