NLP高频面试题(四十六)——Transformer 架构中的位置编码及其演化详解

引言

Transformer 模型(Vaswani 等人,2017)在序列建模中取得了革命性突破,利用自注意力机制实现了并行的序列处理。然而,Transformer 本身对序列的顺序信息不敏感:输入序列元素在自注意力中是无排列的(Permutation-invariant)。换言之,Transformer 缺乏像 RNN 那样的自然顺序编码能力,必须显式地注入位置(顺序)信息才能让模型“知道”第一个词和第二个词的区别。为了解决这一问题,Transformer 引入了**位置编码(Positional Encoding)**的概念,为每个序列位置提供一个向量表示,用以表示该位置在序列中的相对或绝对顺序。

在最初的 Transformer 中,作者采用了固定的正弦位置编码来为每个位置生成独特的表示。随后,研究者们提出了许多不同的方案对位置信息进行编码,包括可学习的位置编码(如 BERT 等模型所用)、相对位置编码(relative positional encoding,如 Transformer-XL、T5 等模型所用)、旋转位置编码(Rotary Positional Encod

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Chaos_Wang_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值