传统的RNN网络 无法并行计算,只能一个一个输入词,而Transformer可以做并行计算。 Transformer Self-Attention 当我们对一个词做编码时,不是简简单单只考虑当前的词,而是要考虑当前词的上下文语境,要把整个上下文语境融入到当前词的词向量中。