动手学Transformer 自注意力 Transformer 多头注意力 有掩码的多头注意力 基于位置的前馈网络(MLP) 层归一化 信息传递 预测 自注意力 x i \mathbf{x}_i xi 自身作为key value query,求自己的注意力,对序列抽取特征 输入和输出维度相同 计算复杂度 O ( n 2 d ) O(n^2d) O(n2d) 并行度 O ( n ) O(n) O(n) 最长路径 O ( 1 ) O(1) O(1) 自注意力没有记录位置信息,引入位置编码矩阵 P ∈ R n × d \mathbf{P}\in\mathbb{R}^{n\times d} P∈R