Transformer数学推导——Q41 推导相对位置编码中键-查询偏移量的梯度传播路径

该问题归类到Transformer架构问题集——位置编码——相对位置编码。请参考LLM数学推导——Transformer架构问题集

在自然语言处理这片充满神秘与挑战的领域中,Transformer 模型凭借自注意力机制大放异彩,成为当之无愧的 “顶梁柱”。而相对位置编码作为 Transformer 架构中的关键一环,就像是赋予模型感知序列顺序的 “智慧之眼”。其中,键 - 查询偏移量的梯度传播路径更是如同模型训练过程中的 “神经网络”,承载着信息传递与参数优化的重任。今天,我们就深入剖析这一关键内容,揭开它的神秘面纱。

1. 相对位置编码背景介绍

在 Transformer 诞生初期,绝对位置编码是赋予模型位置信息的主要方式,它就像给每个位置都分配了一个独一无二的 “身份证号”。然而,这种方式在处理长序列时逐渐暴露出局限性,例如当序列长度增加,不同位置的编码可能会出现 “混淆”,导致模型难以准确捕捉位置之间的相对关系。

相对位置编码应运而生,它不再执着于每个位置的绝对身份,而是将目光聚焦于位置之间的相对距离和关系。这一转变,让模型在理解文本时,能够像人类一样,更关注元素之间的相对顺序和逻辑联系。比如在翻译一个复杂的长句时,相对位置编码能帮助模型更好地把握从句与主句、修饰词与中心词之间的位置关联,从而生成更准确、更自然的译文。

2. 相对位置编码基础原理

在 Transformer 的自注意力机制中,注意力分数的计算是模型理解输入序列的核心步骤。引入相对位置编码后,注意力分数 A_{ij} 的计算公式变为: A_{ij}=\frac{\text{exp}((\mathbf{q}_i\cdot\mathbf{k}_j + b_{ij})/\sqrt{d_k})}{\sum_{k = 1}^{n}\text{exp}((\mathbf{q}_i\cdot\mathbf{k}_k + b_{ik})/\sqrt{d_k})} 其中,\mathbf{q}_i 是查询向量,它就像一个 “搜索者”,在输入序列中寻找相关信息;\mathbf{k}_j 是键向量,充当着 “索引” 的角色,帮助查询向量定位信息;d_k 是键向量的维度;而 b_{ij} 就是键 - 查询偏移量对应的偏置项,它携带了位置 i 和 j 之间相对位置的关键信息。

这个公式就像是一个精密的 “信息处理器”,键 - 查询偏移量 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨顿

唵嘛呢叭咪吽

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值