
深度学习
文章平均质量分 63
淘淘图兔兔呀
这个作者很懒,什么都没留下…
展开
-
输入归一化、批量归一化(BN)与层归一化(LN)
1 输入归一化不同输入特征的取值范围差异比较大时,会影响到梯度下降法的效率。以2维特征为例,特征取值不同会导致大多数位置的梯度方向并不是最优的搜索方向,当使用梯度下降法寻求最优解时,会导致需要很多次迭代才能收敛,如图(a);当特征归一化后,梯度方向会近似为最优的搜索方向,如图(b)。2 批量归一化&层归一化神经网络都是多层结构,上一层 的输出即为下一层的输入,所以即使输入数据做了归一化,由于经过了线性变换以及激活函数,下一层的输入在取值范围可能又会有比较大的差别。从机器学习角度来看,如果某个原创 2022-02-18 18:38:15 · 6139 阅读 · 1 评论 -
Transformer
Transformer的定义Transformer可以理解为seq2seq model with ‘Self-attention’原创 2020-11-20 17:02:07 · 89 阅读 · 0 评论 -
深度学习为什么需要新架构?
1.提高表现。2.从数据中抽取更好的特征。3.提高泛化性。4.减少参数量。原创 2020-11-20 16:59:12 · 105 阅读 · 0 评论