
机器学习
文章平均质量分 64
fire_lch316
这个作者很懒,什么都没留下…
展开
-
机器学习/深度学习中矩阵求导
在讨论矩阵求导之前,我们先回忆一下为什么要求导。吴恩达的视频中讲到过相关问题,可以将找一个函数的极值看做机器学习的工作,比如下图,当前找到的解对应图中A点(x,f(x))。此时可以求函数在A点的偏导。然后x减去就是更新的下一个位置。就是学习速率。可以看出离极值点越远,偏导的绝对值越大,那么每次移动步长的就更大,这样更快接近极值点。反之,离极值点越近,偏导的绝对值越小,每次移动的步长就更小,这样在求极值点的时候更精确。从上述可以了解到求偏导的作用,就是帮助我们更新参数。因此如果要求一个参数原创 2022-02-19 16:52:36 · 1443 阅读 · 0 评论 -
一阶动量和二阶动量及Adam等优化算法笔记
就按照从动量和矩的角度探讨优化理论的内涵(以动量法、AdaGrad和Adam举例) - 知乎的讲解学习,讲的挺细的。这里补充一些笔记方便以后自己复习用。1.AdaGrad算法其中说到了“如果目标函数有关自变量中某个元素的偏导数一直都较大,那么该元素的学习率讲下降较快;反之,如果目标函数有关自变量中某个元素的偏导数一直都较少,那么该元素的学习率将下降较慢”。我认为这是站在SGD的角度来看的。SGD的梯度更新如下对于SGD来说,其学习率一直是,然后相较之下AdaGrad算法的学习原创 2022-01-14 16:29:15 · 4713 阅读 · 0 评论 -
机器学习-正则化 L0,L1范数
我是参考这篇博客理解的:机器学习中的范数规则化之(一)L0、L1与L2范数 - 呆风语者 - 博客园没有看其中优化部分的讲解,中间有一些地方补充一下我自己的理解。这个文章很好的就是一开始就把这个公式放出来了:很多文章在讲范数问题的时候都没有先把这个摆出来。这样就是说要优化w,使左右两个项的和最小。接下来就是如下的经典图形了(盗张图):注意看横纵坐标是参数w的不同维度,这里就只是考了二维参数的情况。然后上图方形的图案就是w的L1范数的一个等势线,就是上述公式(1)的第二个项原创 2022-01-12 16:59:05 · 355 阅读 · 0 评论 -
RNN-BPTT 笔记
我主要是参考如下文章理解的:数学 · RNN(二)· BPTT 算法 - 知乎其中:这一步划红线的地方是如何理解的:从这张图可以大概看出Lt和W的关系:我一开始单纯的理解成Lt是W的高次项函数(这里将所有激活函数当线性函数去简化推导的复杂性),然后求导,发现这样并不是这样理解的。此时还原RNN的结构,RNN展开后中间要经过t层。这t层,每次都要乘以W。我们可以想成第1次乘以W1,第2次乘以W2,第3次乘以W3,以此类推。只是说这里的W1=W2=W3=...=W。然后前向传..原创 2022-01-04 15:15:30 · 522 阅读 · 0 评论