Transformer 是一种基于**自注意力机制(Self-Attention)**的深度学习模型架构,由Google在2017年的论文《Attention Is All You Need》中首次提出。它彻底改变了自然语言处理(NLP)领域,并成为当今大语言模型(如GPT、BERT、PaLM等)的核心技术基础。
核心思想:用注意力替代循环和卷积
传统的序列模型(如RNN、LSTM)依赖循环结构逐步处理序列数据(例如逐词生成文本),存在两大瓶颈:
-
难以并行化:必须按顺序计算,训练速度慢。
-
长距离依赖问题:序列较长时,模型难以记住远距离词之间的关系(例如“猫追老鼠,结果它摔倒了”中的“它”指谁?)。
Transformer通过自注意力机制直接建模序列中所有词之间的关系,一举解决了这两个问题。
Transformer的架构
Transformer由**编码器(Encoder)和解码器(Decoder)**堆叠而成(可根据任务选择使用部分结构),其核心组件如下:
1. 自注意力机制(Self-Attention)
-
目标:为序列中的每个词分配一个“注意力权重”,表示它与其他词的相关性。
-
工作原理:

最低0.47元/天 解锁文章
6万+

被折叠的 条评论
为什么被折叠?



