the design from the original paper encoder由词嵌入、位置编码层和多个相同结构的模块组成,其结构是多头注意力+前馈网络,residual connection和normalization 一种改进模块(调整add和norm的位置):