[李宏毅老师深度学习视频] 用batch标准化的方式解决类神经网络训练问题+transformer【手写笔记】

本文链接：https://blog.youkuaiyun.com/weixin_42198265/article/details/126370966

文章目录

此笔记来源于李宏毅老师的机器学习视频，以下属于自己的理解以及老师上课的内容，由于公式过多，不便于直接打字，故用手写笔记替代。

Github的链接（pdf）：https://github.com/Bessie-Lee/Deep-Learning-Recodes-LiHongyi

类神经网络训练不起来，解决办法五

在计算梯度的时候，遇到各种崎岖陡峭的梯度，使得训练无法再进行下去或者在一个范围波动，此时科学家们想到愚公移山，要不直接把崎岖的地方给铲平，变成一个平地或者一个斜坡，这样子避免了陡峭，故而从源头上对数据进行了处理。

处理的方式就是我们常见的正则化（归一化），将输入的参数归一化为一个-1-1区间范围内的值，这样子确保加入参数weight和bais时，不会出现梯度时大时小的现象，从而更好的使梯度下降到minima的位置。

但是常见的神经网络都不止一层，对于多层的神经网络而言，如果只是对输入的input向量进行正则化，后面经过权重变化得到的新的参数将也会面临崎岖的现象，故而会对后面的输出结果进行再次标准化，可是过度的标准化也会导致向量之间的耦合度过高，从而影响最终的output，所以我们需要适当的进行标准化（此步骤可以简称：玄学调参）

[注：一般我们采用的batch尽量大一点，因为小的batch标准化没有什么意义(例如对一个只有1batch的进行标准化，无论是否标准化的结果都是他本身的值，数量过小标准化的意义便不大，反而会导致结果的输出不准确)]

其他类神经网络训练不起来的原因以及解决办法见之前博客：[李宏毅老师深度学习视频] 类神经网络训练不起来的四大原因【手写笔记】

transformer

主要也就是encoder和decoder（编码器与解码器）

encoder比较简单，采用的是传统的self-attention的技术加上residual进行搭配，decoder是将begin作为原始输入，采用的是masked-self-attention，然后采用类似于self-attention的手段将encoder的结果与decoder的进行融合，然后再过一层酷似encoder的区域，最后过一层全连接以及归一化得到最终结果。

decoder的起始步骤是依赖begin的最初结果得到的最后值，这个值再放入decoder的步骤中进行求得结果，所以说每一个输出都是会与下一个输出有紧密联系的。