深入理解Transformer架构:从注意力机制到模型构建
1. 注意力机制概述
注意力是一个通用概念,可以以不同形式应用于任何类型的深度网络。例如,在卷积神经网络(CNN)中,我们可以对滤波器的输出进行缩放,以强调输入中最相关位置所产生的值。不同类型的注意力层有其对应的图标,如多头注意力用小3D框表示,暗示着注意力网络的堆叠;Q/KV注意力则在菱形内放置一条短线来标识Q输入,并在相邻一侧引入K和V输入。
| 注意力层类型 | 图标表示 |
|---|---|
| 自注意力 | 特定图标(未详细描述) |
| 多头自注意力 | 小3D框 |
| Q/KV注意力 | 菱形内有短线 |
| 多头Q/KV注意力 | (未详细描述) |
2. Transformer的诞生
在具备嵌入和注意力机制后,我们旨在构建一种基于注意力网络而非循环神经网络(RNN)的翻译器。这一想法源于“Attention Is All You Need”,作者将基于注意力的模型称为Transformer。Transformer模型表现出色,催生了一类新的语言模型,这类模型不仅可以并行训练,还能在各种任务中超越RNN。
Transform
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



