Transformer细节（九）——Transformer位置编码的改进

最新推荐文章于 2025-05-04 02:47:21 发布

多学学多写写

最新推荐文章于 2025-05-04 02:47:21 发布

阅读量1.5k

点赞数 40

文章标签：机器学习 python 算法

本文链接：https://blog.youkuaiyun.com/weixin_47129891/article/details/139896787

版权

一、相对位置编码

相对位置编码是针对绝对位置编码的一种改进，旨在捕捉序列中元素之间的相对位置信息。相对位置编码在处理长距离依赖关系和泛化到不同长度的序列时表现更好。

1、工作原理

相对位置编码的核心思想是，位置关系是相对的而不是绝对的。相对位置编码将位置差异（相对位置）纳入注意力计算中。

假设有一个序列长度为 \( N \)，位置 \( i \) 和位置 \( j \) 的相对位置编码可以表示为 \( r_{ij} \)，并用于调整注意力得分 \( e_{ij} \)。

2、实现方式

（1）相对位置嵌入

使用一个相对位置嵌入矩阵 \( W_r \) 来表示位置差异。位置 \( i \) 和位置 \( j \) 的相对位置编码 \( r_{ij} \) 可以通过查询这个嵌入矩阵得到。

\[
r_{ij} = W_r[j - i + N - 1]
\]

其中 \( N \) 是序列的最大长度，确保索引 \( j - i + N - 1 \) 在有效范围内。

（2）相对位置编码与注意力计算

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

多学学多写写

关注关注

40
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

SwinTransformer改进（4）：SK模块集成

2401_82355416的博客

04-25

602

这段代码实现了一个改进版的Swin Transformer模型，主要特点是在分类头前插入了一个Selective Kernel(SK)模块。SK模块能够自适应地调整不同特征通道的重要性，从而增强模型的表示能力。

5.11 Transformers的改进——自适应Attention

炫云云

04-05

1315

💖💖感谢各位观看这篇文章，💖💖点赞💖💖、收藏💖💖、你的支持是我前进的动力！💖💖 💖💖感谢你的阅读💖，专栏文章💖持续更新！💖关注不迷路！!💖 🥝🥝 1 自适应Attention 🥝🥝 2 Self-attention 🥝🥝 3 Adaptive attention span

参与评论您还未登录，请先登录后发表或查看评论

Transformer的改进

Neways的博客

12-21

3343

Transformer的改进Transformer简介Efficient Transformer简介Fixed PatternsCombination of PatternsLearnable PatternsMemoryLow-RankKernelsRecurrence性能比较 Transformer简介 Transformer的核心是self-attention，通过计算输入序列中元素与其他所有元素的相关性来获取加权得分。但是这一步骤需要 O(n2)O(n^2)O(n2)的时间和空间复杂度，因为需要两个

Transformer模型的改进

mudongcd0419的博客

11-07

2549

Transformer中的各种改进

hellozhxy的博客

01-11

1928

LLM大行其道的时代，Transformer成为了当下最流行的模型结构，没有之一。为了达到加速或提效的目的，在vanilla Transformer的基础上，业界探索了针对不同组件的各种改进。

魔改Transformer！9种提速又提效的模型优化方案

python12345678_的博客

07-04

2510

Transformer目前已经成为人工智能领域的主流模型，应用非常广泛。然而Transformer中注意力机制计算代价较高，随着序列长度的增加，这个计算量还会持续上升。为了解决这个问题，业内出现了许多Transformer的魔改工作，以优化Transformer的运行效率。我这次就给大家。文章主要涉及4个方向：稀疏注意力机制、Transformer处理长文本、Transformer运行提效以及卷积Attention，原文及源码都已整理。

深度学习 Transformer机制

Fantastic

10-30

6475

Transformer

Transformer细节（九）——Transformer位置编码

weixin_47129891的博客

06-24

497

总之，位置编码在Transformer模型中起到了引入序列位置信息的关键作用，确保模型在处理序列数据时能够正确理解和利用位置信息。3. 可扩展性：由于位置编码是通过数学函数计算出来的，因此可以扩展到任意长度的序列，而不需要预定义所有可能的序列长度。这些函数确保了不同位置的编码是唯一的，同时不同位置之间的距离也通过这些编码被保留和反映出来。2. 平滑性：相近位置的编码在高维空间中也是相近的，这有助于模型捕捉局部信息。1.唯一性：每个位置的编码都是唯一的，不同位置的编码不会相同。\( i \) 是维度索引。

Transformer细节（九）——Transformer对比CNN/RNN引入位置编码的原因

weixin_47129891的博客

06-24

422

CNN通过卷积操作的局部感受野和权重共享机制捕捉到序列中的局部模式和顺序信息。RNN通过隐状态的时间步传递机制显式地保留和利用序列的顺序信息。Transformer由于使用全局的自注意力机制，需要通过位置编码显式地引入序列的位置信息。这些特性使得CNN和RNN在处理序列数据时天然地具备顺序感知能力，而Transformer则通过位置编码来达到类似的效果。

Transformer数学推导——Q50 分析位置编码在低资源语言中的迁移学习稳定性

最新发布

墨顿随笔

05-04

1100

在自然语言处理的广阔版图中，低资源语言如同隐匿于迷雾深处的神秘岛屿，尽管蕴含独特的语言文化宝藏，却因标注数据稀缺、研究资源有限，长期处于被忽视的边缘。这些语言包括世界上众多使用人数较少的少数民族语言、区域性方言等，当传统自然语言处理模型试图涉足这片领域时，就像驾驶一艘装备精良的巨轮驶入暗礁密布的浅滩，难以施展拳脚。而位置编码作为深度学习模型理解序列数据的 “导航仪”，在处理高资源语言时已展现强大威力。

Transformer数学推导——Q45 分析位置编码与词嵌入的耦合效应对模型容量的影响

墨顿随笔

05-03

1033

在 Transformer 的自注意力机制中，位置编码与词嵌入的耦合表现为二者信息的融合参与注意力分数计算。设查询向量、键向量由词嵌入与位置编码共同构成，即。注意力分数的计算公式为：将代入可得：展开分子：可见，词嵌入与位置编码的向量点积相互交织，共同影响注意力分数，此即为耦合的数学体现。位置编码与词嵌入的耦合效应是影响模型容量的关键因素。通过严谨的数学推导、真实的研究案例与可复现的代码实践，我们揭示了其正向增强与负向限制的双重作用。

Transformer 的结构改进与替代方案

hellozhxy的博客

03-09

3871

自从 Transformer 结构被提出以来，以 BERT 为代表的 Encoder 模型，以 GPT 为代表的 Decoder 模型，以 ViT 为代表的 CV 模型，都烜赫一时。时至今日，几乎所有的 LLM 也都是 Transformer 结构，尽管不时也会有新的结构被提出来，但 Transformer 的江湖地位仍然无可撼动。希望通过以上问题的思考和讨论，能够帮助我们更好地使用Transformer、理解Transformer、优化Transformer和改进Transformer。

Reformer RoPE,旋转位置编码，关于Transformer当中的位置编码的优化考察

AI生成式技术曾小健

06-09

1140

DeBerta矩阵的定义与T5相反，T5是去除了位置与token的交叉项，只保留相对位置产生的偏移矩阵，而DeBerta与之相反，它去除掉了相对位置产生的偏置矩阵，但是留下了两个位置与token之间的交叉项，并将之用相对位置矩阵的方式进行保留。如前所述，位置编码的核心就是给每一个位置添加一个具体的position embedding从而令attention层的输入可以识别出其具体的位置，但是由于句长的无限性所以限制了绝对位置编码的使用方法。，大概会去考虑这个问题的人就大幅减少了。

Transformer模型：未来的改进方向与潜在影响

qlkaicx的博客

06-17

1492

自从2017年Google的研究者们首次提出Transformer模型以来，它已经彻底改变了自然语言处理（NLP）领域的面貌。Transformer的核心优势在于其“自注意力（Self-Attention）”机制，该机制能够在处理序列数据时同时考虑序列中的所有元素，从而显著提高了模型处理长距离依赖的能力。尽管现有的Transformer模型已经非常强大，但科学家和工程师们仍然在不断探索如何进一步改进这一架构。本文将探讨可能的改进方向和这些改进可能带来的影响。

自动检索、修复Python代码bug，微软推出DeepDebug

zandaoguang的博客

08-12

399

视学算法报道机器之心编辑部还在为不断的 debug 代码烦恼吗？本地化 Bug 并修复程序是软件开发过程中的重要任务。在本篇论文中，来自微软 Cloud+AI 部门的研究者介绍了 Deep...

ICML 2024 | 北大、字节提出新型双层位置编码方案，有效改善长度外推效果

Paper weekly

05-25

669

在这项工作中，我们利用语言序列的内在分段特性，设计了一种新的位置编码方法来达到更好的长度外推效果，称为双层位置编码（BiPE）。对于每个位置，我们的 BiPE 融合了段内编码和段间编码。段内编码通过绝对位置编码标识段内位置，并帮助模型捕捉其中的语义信息。段间编码指定段索引，通过相对位置编码建模段间关系，旨在提高外推能力。理论分析表明，这种位置信息的解耦使学习更加有效。实证结果也表明，我们的 BiP...

【计算机视觉 | Transformer】魔改Transformer！9种提速又提效的模型优化方案分享！

wzk4869的博客

11-30

5119

【计算机视觉 | Transformer】魔改Transformer！9种提速又提效的模型优化方案分享！

对处理点云的Transformer的位置编码改进方法：法向量编码、局部坐标系编码、球面坐标编码、高斯权重编码、多尺度几何编码

weixin_47129891的博客

06-28

1261

假设有 \( S \) 个尺度，每个尺度对应的邻域大小为 \( r_s \)，则在第 \( s \) 个尺度上，点 \( p_i \) 的邻域为 \( \mathcal{N}_s(p_i) \)，在该邻域上计算几何特征 \( g_s(p_i) \)。局部坐标系编码通过定义每个点的局部坐标系，并在该坐标系下表示邻域内的点，以捕捉局部几何关系。（2）计算协方差矩阵的特征值和特征向量，最小特征值对应的特征向量即为法向量 \( n_i \)。其中，\(\bar{p_i}\) 是邻域点的均值。

Transformer及其改进型总结

Steve Wang's blog

09-09

4408

Transformer是Google提出的用来解决LSTM建模长期依赖乏力的问题全新架构模型，同时其网络架构的设计全部考虑如何并行化，包括self-attenion机制、multi-head self-attention机制、FFW全部都是可以并行计算的，Add&Norm中Add类似预ResNet的shortcut，是为了解决深层模型梯度消失的问题，LayerNorm可以加速计算，这全部都是在为后面的大规模预训练模型做准备。Transformer的提出在NLP中具有里程碑式的意义，现在取得成功的B.

transformer中相对位置编码改进

03-14