Transformer 文章目录 Transformer 👉引言💎 一、 自注意力机制 : 主要用于 长距离依赖捕捉和转换序列 二、 Encoder: 2.1 多头注意力机制: 2.2 残差连接: 三、 Decoder: 3.1 Decoder 多头注意力层: 3.2 交叉注意力层 3.3 Transformer中的全连接层 四、 自注意力过程 - 从 K,Q,V维度解读: 👉引言💎 学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。 热爱写作,愿意让自己成为更好的人… … 铭记于心 🎉✨🎉我唯一知道的,便是我一无所知🎉✨🎉 一、 自注意力机制 : 主要用于 长距离依赖捕捉和转换序列 二、 Encoder: 2.1 多头注意力机制: