机器学习（一）——线性回归

最新推荐文章于 2024-09-12 22:01:28 发布

天天乐见

最新推荐文章于 2024-09-12 22:01:28 发布

阅读量262

点赞数 1

CC 4.0 BY-SA版权

分类专栏：算法文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/a794922102/article/details/90479418

算法专栏收录该内容

16 篇文章

订阅专栏

博客主要围绕线性回归展开，介绍了其成本函数采用最小二乘法，还阐述了利用梯度下降法求解的过程，包括直接对元素求导和转化为矩阵求导两种方式，并通过一系列推导得出相关求导结果。

1. 线性回归

成本函数：最小二乘
$J(θ)=\frac{1}{2}\sum^m_{i=1}(θ^Tx^{(i)}-y^{(i)}))^2$
利用梯度下降法：
$θ_j=θ_j-α\frac{\partial J(θ)}{\partial θ_j}$
则我们需要求导：

直接对元素求导

$\begin{aligned} \frac{\partial J(θ)}{\partial θ_j} &=\sum^m_{i=1}\frac{\partial }{\partial θ_j}\frac{1}{2}(θ^Tx^{(i)}-y^{(i)}))^2\\ &=\sum^m_{i=1}\{(θ^Tx^{(i)}-y^{(i)})\frac{\partial }{\partial θ_j}(θ^Tx^{(i)}-y^{(i)})\}\\ &=\sum^m_{i=1}\{(θ^Tx^{(i)}-y^{(i)})x^{(i)}_j\} \end{aligned}$

转化为矩阵求导：

令：
$X=\left[ \begin{matrix} —(x^{(1)})^T—\\ —(x^{(2)})^T—\\ \vdots\\ —(x^{(m)})^T— \end{matrix} \right] ,θ=\left[ \begin{matrix} θ_0\\ θ_1\\ \vdots\\ θ_n \end{matrix} \right], y=\left[ \begin{matrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(m)} \end{matrix} \right]$
则我们可以知道：
$h_{θ}(x^{(i)}{})=(x^{(i)})^Tθ$
所以:
$Xθ-y=\left[ \begin{matrix} (x^{(1)})^Tθ-y^{(1)}\\ (x^{(2)})^Tθ-y^{(2)}\\ \vdots\\ (x^{(m)})^Tθ-y^{(m)} \end{matrix} \right]$
因此我们可以推出：
$\frac{1}{2}(Xθ-y)^T(Xθ-y)=\frac{1}{2}\sum^m_{i=1}(θ^Tx^{(i)}-y^{(i)}))^2=J(θ)$
令 $w = (X θ - y)$ ，则原式可以写成: $J(θ)=12wTwJ(θ)=\frac{1}{2}w^Tw$
$d(J(θ))=\frac{1}{2}d(w^T)w+\frac{1}{2}w^Td(w)$
由于 $J (θ)$ 是标量，所以：
$tr(J(θ))=tr(\frac{1}{2}d(w^T)w+\frac{1}{2}w^Td(w))=J(θ)=tr((\frac{\partial J(θ)}{\partial w})^Td(w))$
又因为：
$\begin{aligned} tr\left(\frac{1}{2}d(w^T)w+\frac{1}{2}w^Td(w)\right)&=tr\left(\frac{1}{2}(d(w))^Tw\right)+tr\left(\frac{1}{2}w^Td(w)\right)\\ &=\frac{1}{2}tr\left((w^Td(w))^T\right)+\frac{1}{2}tr\left(w^Td(w)\right)\\ &=\frac{1}{2}tr\left((w^Td(w)\right)+\frac{1}{2}tr\left(w^Td(w)\right)\\ &=tr(w^Td(w))=tr\left(\left(\frac{\partial J(θ)}{\partial w}\right)^Td(w)\right) \\ \end{aligned}$
于是我们可以得出：
$w^Td(w)=\left(\frac{\partial J(θ)}{\partial w}\right)^Td(w)\\$
所以：
$\frac{\partial J(θ)}{\partial w}=w$
由因为：
$d (w) = X d (θ)$
所以
$\begin{aligned} d(J(θ))&=tr\left(\left(\frac{\partial J(θ)}{\partial w}\right)^Td(w)\right)=tr\left(\left(\frac{\partial J(θ)}{\partial w}\right)^TXd(θ)\right)=tr\left(w^TXd(θ)\right)\\ d(J(θ))&=tr\left(\left(\frac{\partial J(θ)}{\partial θ}\right)^Td(θ)\right) \end{aligned}$
于是显然有：
$w^TXd(θ)=\left(\frac{\partial J(θ)}{\partial θ}\right)^Td(θ)$
所以：
$\frac{\partial J(θ)}{\partial θ}=X^T(Xθ-y)$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。