10、Transformer架构深度解析:从编码到解码

Transformer架构深度解析:从编码到解码

1. 词嵌入与预测

在Transformer架构中,初始编码器层生成的内容会由后续层进一步处理,以对掩码标记进行预测,而非针对“隐藏状态”本身。若任务为分类,则会使用分类层替代预训练时的语言建模层。无论哪种情况,处理过程都会继续通过构成Transformer架构编码器组件的其余编码器块。

Transformer架构的词嵌入涉及注意力机制,每个词嵌入都基于给定句子中所有标记的词嵌入。这与word2vec算法生成的词嵌入有显著区别:注意力机制会为出现在多个句子中的同一个词生成不同的嵌入,而word2vec无论词的上下文如何,都为给定词生成单一的词嵌入。对于包含n个标记的句子,每个词嵌入的构建都涉及其余(n - 1)个词,因此基于注意力的机制复杂度为O(N^2),其中N是语料库中唯一标记的数量。

2. 位置编码

2.1 位置编码的作用

位置编码被添加到序列中标记的嵌入中,为模型提供标记在序列中的位置信息。由于基于自注意力机制的Transformer模型本身没有顺序或位置感,位置编码对于模型在进行预测时考虑标记的顺序至关重要。它注入了序列中标记相对或绝对位置的信息,这对于翻译、摘要等序列到序列任务非常关键,因为在这些任务中词的顺序至关重要。

位置编码与词嵌入具有相同的维度,这使得我们可以将它们添加到词嵌入中。并且,位置编码会在词嵌入传入Transformer模型之前添加。此外,位置编码使模型能够处理可变长度的序列,还能实现序列的并行处理,这是Transformer模型相对于循环神经网络(RNN)的显著优势。

2.2 位置编码的计算

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值