变压器模型:术语、硬件约束与GPT - 2文本补全
1. 变压器模型术语
过去几十年里,卷积神经网络(CNNs)、循环神经网络(RNNs)等多种类型的人工神经网络(ANNs)不断涌现,它们有一些通用的词汇。而变压器模型引入了一些新词汇,并且对现有词汇的使用方式略有不同。
1.1 堆栈(Stack)
堆栈包含大小相同的层,这与经典的深度学习模型不同。堆栈从下往上运行,它可以是编码器或解码器。随着在堆栈中位置的上升,变压器堆栈能学习到更多信息。可以把堆栈想象成纽约的帝国大厦,在底层看不到太多东西,但随着上升到更高楼层的办公室并望向窗外,能看到更多更远的地方,最终在顶层能欣赏到曼哈顿的壮丽景色。
1.2 子层(Sublayer)
每一层包含子层,不同层的每个子层具有相同的结构,这有助于硬件优化。原始的变压器包含两个从下往上运行的子层:
- 自注意力子层:专为自然语言处理(NLP)和硬件优化而设计。
- 经过一些调整的经典前馈网络。
1.3 注意力头(Attention heads)
自注意力子层被划分为n个独立且相同的层,称为头。例如,原始的变压器包含8个头。注意力头用微处理器表示,强调了变压器架构的并行处理能力。变压器架构既适合NLP需求,也满足硬件优化要求。
2. 变压器模型的硬件约束
变压器模型离不开优化的硬件。内存和磁盘管理设计是关键组件,而计算能力是先决条件。如果没有图形处理单元(GPUs),几乎不可能训练原始的变压器模型。
2.1 变压器的架构和规模
在多头注意力架构部分可以看
超级会员免费看
订阅专栏 解锁全文
1437

被折叠的 条评论
为什么被折叠?



