- 博客(5)
- 收藏
- 关注
原创 python:torch.no_grad()的作用 + requires_grad,grad_fn,grad的含义及使用
保证param原地数值改变操作下requires_grad=True不变。
2022-10-09 21:09:30
8760
1
原创 深度学习基础:优化算法
比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。从上面的解释可以看出,梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。优化思想:用当前位置的负梯度方向作为搜索方向,亦即为当前位置下降最快的方向,也称“最速下降法”。
2022-10-08 19:34:11
363
原创 深度学习基础:矩阵求导+反向传播
重点:向量对向量求导a = , 向量a对向量W求导,导数为WT.当自变量和因变量均为向量时,求导结果为一个矩阵,我们称该矩阵为雅可比矩阵(Jacobian Matrix)。
2022-10-07 13:37:13
1935
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人