1.10 让模型理解“顺序”：位置编码（Positional Encoding）的数学与代码全解析

最新推荐文章于 2025-12-15 12:08:33 发布

少林码僧

最新推荐文章于 2025-12-15 12:08:33 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：从零构建大模型文章标签：人工智能深度学习 ai 大模型算法 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yonggeit/article/details/155247656

从零构建大模型专栏收录该内容

39 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

1.10 让模型理解“顺序”：位置编码（Positional Encoding）的数学与代码全解析

引言：Transformer的“阿喀琉斯之踵”

在前面的章节中，我们已经深入剖析了Transformer架构的核心引擎——自注意力机制（Self-Attention）。我们知道，它通过计算Query、Key、Value，让模型能够并行地、全局地捕捉句子中任意两个词之间的依赖关系。这种设计带来了无与伦比的效率和长距离依赖捕捉能力，是Transformer成功的关键。

但这种设计也带来了一个天生的、巨大的缺陷，堪称它的“阿喀琉斯之踵”：它本身是无法感知词语顺序的。

想象一下，对于自注意力机制来说，句子“狗咬人”和“人咬狗”在输入时，如果仅考虑词本身，其计算过程是完全一样的。它看到的是一个由{“人”, “狗”, “咬”}组成的“词袋”（Bag of Words），词语之间的先后顺序信息完全丢失了。这显然是不可接受的，因为在自然语言中，顺序决定了天差地别的含义。

那么，Transformer是如何解决这个问题的呢？答案就是引入一个精巧的“补丁”——位置编码（Positional Encoding, PE）。它是一种将词语在序列中的绝对或相对位置信息，以数学方式注入到模型中的技术。

本章节，我们将：

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

少林码僧 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。