一、Add(残差连接)

作用:使模型卷的更深,因为模型要重复N次,Add操作充分考虑了模型复杂度,抵抗模型深度所导致输入信号的衰减,
二、Norm(Normaliation正则化)
作用:把分散的分布重新拉回到正常的分布区间之中。

三、Feed Forward
前馈网络(feed-forward network)是一种常见的神经网络结构,由一个或多个线性变换和非线性激活函数组成。它的输入是一个词向量,经过一系列线性变换和激活函数处理之后,输出另一个词向量。
作用:模仿神经元结构,内置两组Linear数据进行转换。