
深度学习
邢昱
这个作者很懒,什么都没留下…
展开
-
深度学习——公式推导——微积分20230509
为了书写方便,我们通常将单个函数对多个变量(标量关于向量)或者多元函数对单个变量(向量对标量)的偏导数写成向量和矩阵的形式,使其可以被当成一个整体处理。当研究到神经网络求偏导的过程中,一直不理解标量对向量求导的公式维度怎么写,以及向量对标量求导,向量对向量求导,通过下面的过程算是有了初步的理解。矩阵微积分是多元微积分的一种表达形式,即使用矩阵和向量来表示因变量每个成分关于自变量每个成分的偏导数。邱锡鹏 神经网络与深度学习Neural Networks and Deep Learning。原创 2023-05-09 15:24:05 · 336 阅读 · 0 评论 -
注意力机制(Attention)
注意力机制分类包括软注意力机制(Soft Attention)和硬注意力机制(Hard Attention)。硬注意力机制指随机选择某个信息作为需要注意的目标,是一个随机过程,不方便用梯度反向传播计算。软注意力机制指在选择信息的时候,计算N个输入信息的加权平均,再输入到神经网络中计算,可以直接利用梯度方向传播进行计算;注意力机制的计算计算注意力得分(attention score)注意力打分模型,常见有:其中W、U和v是可学习的网络参数,d是输入信息的维度。计算注意力分布利用原创 2022-01-11 10:01:25 · 6677 阅读 · 0 评论 -
批归一化(Batch Normalization)
什么是批归一化BN是由Google于2015年提出,这是一个深度神经网络训练的技巧,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题,从而使得训练深层网络模型更加容易和稳定。所以目前BN已经成为几乎所有卷积神经网络的标配技巧了。怎么进行批归一化Batch Normalization(简称BN)就是对每一批数据进行归一化,对于训练中某一个batch的数据{x1,x2,…,xn},注意这个数据是可以输入也可以是网络中间的某一层输出。在BN出现之前,我们的归一化操作原创 2022-01-11 08:45:17 · 1061 阅读 · 0 评论