梯度下降策略

最新推荐文章于 2025-07-22 17:19:17 发布

原创最新推荐文章于 2025-07-22 17:19:17 发布 · 488 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#梯度下降 #Gradient Descent

机器学习专栏收录该内容

7 篇文章

订阅专栏

                    
                    梯度下降
引入：当我们得到一个目标函数后，如何进行求解？
直接求解?（并不一定可解，线性回归可以当做是一个特例）

常规套路：机器学习的套路就是我交给机器一堆数据，然后告诉他什么样的学习方式是对的（目标函数），然后让它朝着这个方向去做
如何优化：一口吃不成个胖子，我们要静悄悄的一步步的完成迭代（每次优化一点点，累积起来就是个大成绩了）
目标函数：J(θ0,θ1)=12m∑i=1m(hθ(xi)−yi)2J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2J(θ0​,θ1​)=2m1​i=1∑m​(hθ​(xi)−yi)2

寻找山谷最低点，也就是我们的目标函数终点（什么样的参数能使得目标函数达到极值点）
下山分几步走呢？（更新参数）
找到当前最合适的方向
走那么一小步，走快了该“跌倒”了
按照方向与步伐去更新我们的参数

梯度下降，目标函数：J(θ0,θ1)=12m∑i=1m(yi−hθ(xi))2J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(y^i-h_\theta(x^i))^2J(θ0​,θ1​)=2m1​∑i=1m​(yi−hθ​(xi))2
批量梯度下降：∂J(θ)∂θj=−1m∑i=1m(yi−hθ(xi))xji\frac{\partial J(\theta)}{\partial \theta_j}=-\frac{1}{m}\sum_{i=1}^m(y^i-h_\theta(x^i))x_j^i∂θj​∂J(θ)​=−m1​i=1∑m​(yi−hθ​(xi))xji​

θj′=θj+1m∑i=1m(yi−hθ(xi))xji\theta_j&#x27;=\theta_j+\frac{1}{m}\sum_{i=1}^m(y^i-h_\theta(x^i))x_j^iθj′​=θj​+m1​i=1∑m​(yi−hθ​(xi))xji​

（容易得到最优解，但是由于每次考虑所有样本，速度很慢）
随机梯度下降：θj′=θj+(yi−hθ(xi))xji\theta_j&#x27;=\theta_j+(y^i-h_\theta(x^i))x_j^iθj′​=θj​+(yi−hθ​(xi))xji​

（每次找一个样本，迭代速度快，但不一定每次都朝着收敛的方向）
小批量梯度下降：θj=θj−α110∑k=ii+9(hθ(xk)−yk)xjk\theta_j=\theta_j-\alpha\frac{1}{10}\sum_{k=i}^{i+9}(h_\theta(x^k)-y^k)x_j^kθj​=θj​−α101​k=i∑i+9​(hθ​(xk)−yk)xjk​

（每次更新选择一小部分来算，实用！）

梯度下降，学习率
学习率（步长）：对结果会产生巨大的影响，一般小一些
如何选择：从小的时候，不行再小
批处理数量：32，64，128都可以，很多时候还得考虑内存和效率