深度学习之梯度

最新推荐文章于 2025-05-08 14:51:53 发布

0iq2333

最新推荐文章于 2025-05-08 14:51:53 发布

阅读量3.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：从零开始学深度学习文章标签：深度学习机器学习概率论

本文链接：https://blog.youkuaiyun.com/acm_durante/article/details/122737276

18 篇文章

订阅专栏

什么是梯度？

函数 $z = y^2 - x^2$
1. 偏导数: $∂z∂x=−2x\frac{\partial z}{\partial x}=-2x$ , $∂z∂y=2y\frac{\partial z}{\partial y}=2y$
2. 梯度: $∇f=(∂z∂x,∂z∂y)=(−2x,2y)\nabla f=(\frac{\partial z}{\partial x},\frac{\partial z}{\partial y})=(-2x,2y)$

神经网络的特征之一，从数据样本中学习。 而loss函数就是我们可以自动确定的抓手。当然，使得loss函数达到最小值时，就是我们要寻找的参数。这时就引入了导数的概念。
导数的引入，可以使我们容易获得极值点， $f^{'} (x) = 0$ ，可是使得我们通过微分方程来轻松获得极值点。但是导数仅仅是对一维函数所说的，但是在现实生活中，往往存在很多维度的属性，这时候并不能用导数来完成这一工作，所以我们引入了梯度。

通过使用 $θt+1=θt−at∇f(θt)\theta_{t+1}=\theta_{t}-a_t\nabla f(\theta_t)$

函数： $f(θ1,θ2)=θ12+θ22f(\theta_1,\theta_2)=\theta_1^2+\theta_2^2$
目标函数： $minθ1,θ2(f(θ1,θ2))\underset{\theta_1,\theta_2}{min}(f(\theta_1,\theta_2))$
更新规则:
1. $θ1=θ1−addθ1f(θ1,θ2)\theta_1=\theta_1-a\frac d{d\theta_1}f(\theta_1,\theta_2)$
2. $θ2=θ2−addθ2f(θ1,θ2)\theta_2=\theta_2-a\frac d{d\theta_2}f(\theta_1,\theta_2)$