位置编码(Positional Encoding)是 Transformer 架构中为序列引入“顺序信息”的关键机制。由于自注意力机制本身对输入顺序不敏感,必须显式注入 token 的位置信息,才能让模型理解“谁在前、谁在后”。大语言模型(LLM)中常见的位置编码方法主要包括以下几类:
1. 绝对位置编码(Absolute Positional Encoding)
正弦/余弦编码(Sinusoidal Encoding)
- 原始 Transformer 论文提出的方法。
- 对每个位置 和维度 ,使用不同频率的正弦和余弦函数生成固定向量:
- 优点:可处理训练时未见的序列长度(外推性好);无需学习参数。
- 缺点:表达能力受限于固定函数形式。
可学习位置嵌入(Learned Positional Embedding)
- 为每个位置分配一个可训练的向量,与词嵌入相加。
- 广泛用于 BERT、GPT 等早期模型。
- 优点:灵活,能适应任务特性。
- 缺点:序列长度超过训练最大长度时无法直接使用(需插值或截断)。
2. 相对位置编码(Relative Positional Encoding)
不再显式表示绝对位置,而是建模 token 之间的相对距离(如“当前词与前3个词的关系”)。
- Transformer-XL 引入的相对位置编码:在注意力计算中将位置信息融入键(Key)和查询(Query)的交互项。
- T5 使用的偏置方法:在注意力分数上直接加一个可学习的相对位置偏置矩阵。
- 优势:更符合语言的局部依赖特性,对长序列泛化更好。
3. 旋转位置编码(RoPE, Rotary Positional Embedding)
- 当前主流大模型(如 LLaMA、ChatGLM、Falcon)广泛采用。
- 将位置信息通过旋转矩阵融入注意力的 Query 和 Key 向量中:其中 是由位置差 决定的旋转操作。
- 核心特性:
- 天然支持相对位置建模;
- 具有良好的外推能力(配合 NTK-aware 插值等技术可扩展上下文);
- 无额外参数,计算高效。
4. 其他变体与增强
- ALiBi(Attention with Linear Biases):不在输入中加位置编码,而是在注意力分数上施加与距离成比例的负偏置。优势是极强的长度外推能力,被 Bloom 等模型采用。
- YaRN / NTK-aware Scaled RoPE:针对 RoPE 在超长上下文下的退化问题,通过缩放基频提升外推性能,用于支持 100K+ tokens 的模型。
总结
大模型的位置编码已从早期的固定或可学习绝对编码,演进到以 RoPE 和 ALiBi 为代表的相对位置建模范式。选择哪种编码方式,直接影响模型的上下文长度支持、训练稳定性与推理效率。当前趋势是:兼顾相对位置感知、无参数开销、强外推能力的方案更受青睐。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~

① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

以上资料如何领取?

为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!


这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


以上全套大模型资料如何领取?

1224

被折叠的 条评论
为什么被折叠?



