为什么position都要编码？

最新推荐文章于 2025-04-02 10:00:00 发布

pbnow

最新推荐文章于 2025-04-02 10:00:00 发布

阅读量892

点赞数

CC 4.0 BY-SA版权

分类专栏： Framework

本文链接：https://blog.youkuaiyun.com/pbnow/article/details/621183

Framework 专栏收录该内容

13 篇文章

订阅专栏

dbforms中为什么position都要编码，出于安全？

原本觉得没有必要

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pbnow

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

bert中的Position Embedding 具体是怎么实现的，是绝对位置吗？相比较于decoder only的生成模型，为什么需要rope旋转位置编码？

强化学习曾小健

01-01

705

BERT 不使用 RoPE 是因为它的任务目标（如分类、问答）对相对位置的要求较低，而生成模型需要更复杂的相对位置编码机制来保证生成结果的上下文一致性，因此 RoPE 更适合生成任务场景。RoPE 的核心是将位置嵌入编码为旋转操作。在 BERT 中，**Position Embedding（位置嵌入）**主要用于。不需要为每个位置维护一个固定的嵌入矩阵。，即每个位置都有一个固定的向量表示。相较于 BERT 的绝对位置嵌入，位置 iii 的嵌入是由其绝对位置。往往是不固定的（因为生成的文本。

Transformer中为什么需要引入位置编码Positional Encoding（附: keras代码实现）

捡起一束光的博客

09-15

3661

Transformer中的位置编码 Transformer模型彻底抛弃了RNN模型，我们知道循环神经网络本身是一种顺序结构，天然包含了句子之间的位置信息。但是Transformer中用Attention取代了RNN，这就导致了位置信息的缺失，模型就没有办法知道每个单词在句子中的相对位置和绝对位置信息。 I do not like the story of the movie, but I do like the cast. I do like the story of the movie, but I

参与评论您还未登录，请先登录后发表或查看评论

Transformer教程之位置编码（Positional Encoding）

weixin_58881595的博客

07-02

1768

在传统的RNN或LSTM模型中，序列信息是通过顺序地处理输入数据来捕捉的。然而，Transformer模型完全依赖于自注意力机制（Self-Attention），不再逐步处理输入序列，这导致模型缺乏捕捉序列顺序信息的能力。为了解决这一问题，位置编码被引入，用于在不改变输入数据顺序的情况下，嵌入序列中的位置信息。

Transformer中的位置编码详解

qq_60245590的博客

04-19

1690

位置编码概述位置编码的目的是为了补充序列的位置信息，这是因为自注意力机制本身不包含位置的概念（例如顺序信息）。位置编码的具体作用是，对于不同的输入序列成分，赋予其不同的位置标识，确保序列信息在不同的上下文中仍然，即使是相同的文本序列也因位置不同而有不同的含义。Transformers 使用的位置编码方法，其中每个位置/词素都被分配一个编号。到此，位置编码的输出是一个矩阵，其中每行的每一行代表序列中的一个特定词素与其位置信息相结合。下图演示了一个较小的位置编码矩阵示例的构成方式。位置编码矩阵。

如何优雅地编码文本中的位置信息？三种positioanl encoding方法简述

zenRRan的博客

03-31

1919

前言相信熟悉BERT的小伙伴对positional encoding（位置表示）肯定都不会陌生~ 虽然positional encoding只是BERT中比较小的一个组成部分，但是实际...

一文搞懂Transformer的位置编码

热门推荐

xian0710830114的专栏

10-08

2万+

本文介绍Transformer的位置编码，有图有表有推导，看不懂你打我！！！在Transformer出现以前，NLP任务大多是以RNN、LSTM为代表的循环处理方式，即一个token一个token的输入到模型当中。这种设计存在天生的缺陷。为了解决这些缺陷，Transformer把token的顺序信号加到词向量上帮助模型学习这些信息，这就位置编码（Positional Encoding）。接下来的内容不会涉及Self-Attention等牛逼的创新设计，只讨论位置编码，希望对大家有所帮助。

ViT中的Postion Embedding(位置编码)详解：数据从一维到二维的变化

介绍AI领域相关知识

08-23

5476

Transformer有效的解决了长距离依赖问题，并且有良好的可扩展性，适用于处理序列化的数据，NLP中的语句刚好就是序列化的数据，但是在计算机视觉中，图像属于二维数据，那么如何在二维数据中应用到transformer呢，针对这个问题，ViT的作者提出一种位置编码策略，将一张图片切分成相同大小的块，然后给每个块进行位置编码成为一个序列，然后再使用transformer进行训练。本篇内容带大家详细了解一下ViT中的位置编码。

为什么Transformer会出现位置编码（Positional Encoding）？

Cream_wyx的博客

07-16

2397

为什么Transformer会出现位置编码（Positional Encoding）？ Transformer被提出首先应用在NLP领域，处理的数据对象为语言的序列数据，既然是序列数据，则序列的顺序对于语言的表达是至关重要的。在这之前，RNN已经被提出用于解决NLP中的机器翻译、文本生成等任务，且RNN是按照序列顺序逐个对句子中的单词进行处理，使得序列的顺序自然而然地保存在模型中。而Transformer的输入是将句子中的所有单词一次性输入到网络中进行学习，这使得序列的顺序信息丢失。因此我们需要通过其他

【人工智能之大模型】Transformer是否需要位置编码？为什么

985小水博的摸鱼日常

04-02

2519

【人工智能之大模型】Transformer是否需要位置编码？为什么

什么是RoPE-旋转位置编码？

TFATS的博客

01-12

4003

我们知道句子中不同词语之前的位置信息十分重要，但是self-attention框架无法直接利用位置信息，因此研究者提出了许多方法将位置信息编码到学习过程中。一是绝对位置编码方法，将位置信息直接加入到输入中；二是相对位置编码方法，研究者通过微调attention的结构，使它具有识别token位置信息的能力。本文作者详细梳理了位置编码的流派，提出了一种旋转位置编码方式RoPE，并从数学角度证明RoPE带来的诸多优点。

Llama为何要采用RoPE旋转位置编码？

m0_64752471的博客

09-29

1009

【位置编码|Position】位置编码之---正余弦位置编码

胡侃有料的博客

02-19

1051

位置编码（Position Encoding）是自然语言处理（NLP）和其他序列模型（如 Transformer）的一个关键概念，用于为输入序列中的每个元素提供位置信息。在处理序列数据时，模型需要了解元素之间的相对位置，以便更好地理解上下文和顺序。周期是Tbaseid∗2πTbaseid∗2π，下图是d = 100,i = 10,不同base的情况随着base的增大，周期随之增加，这样重复的值就会少。

Transformer中的position encoding(位置编码一)

左右-HPU

12-25

1万+

本文主要讲解Transformer 中的 position encoding，在当今CV的目标检测最前沿，都离不开position encoding，在DETR，VIT，MAE框架中应用广泛，下面谈谈我的理解。一般position encoding 分为正余弦编码和可学习编码。正余弦编码 .........

Transformer | DETR目标检测中的位置编码position_encoding代码详解

weixin_44649780的博客

10-04

1万+

Transformer不像RNN可以根据位置顺序接受和处理单词，所以为了得到词的位置信息，将位置信息添加到每个词的嵌入向量中，这称为位置编码。DETR中提供了两种编码方式，一种是正弦编码（PositionEmbeddingSine），一种是可以学习的编码(PositionEmbeddingLearned)，默认为正弦编码。

三种位置编码Position Embedding

weixin_56336619的博客

06-05

7001

1.为什么要位置编码？处理序列问题对于传统CNN、RNN模型，因其处理机制模型本身已经具备很强的捕捉位置信息的特性，所以position embedding属于锦上添花使用attention机制取代cnn、rnn的如transformer、bert模型，本身是一个n*n不包含任何位置信息的词袋模型所以需要和字embedding 相加 [1].基于绝对位置计数 embedding = 0 , 1, ,2, 3 缺点：序列没有上界，与字embedding合并数值变化过大干扰模型解决：使其

Transformer中的位置编码(PE,position encoding)

qq_34771726的博客

11-05

1万+

Transformer中的位置编码(PE,position encoding) 参考链接 https://blog.youkuaiyun.com/Flying_sfeng/article/details/100996524 https://blog.youkuaiyun.com/u012526436/article/details/86295971 transformer模型是当前大红大热的语言模型，今天要讲解的是t...

CNNs Transformer的position位置编码、位置嵌入

MengYa_Dream的博客

03-03

4443

CNNs Transformer多种position分析比较

位置编码综述（一）：概览

qq_35700335的博客

05-15

3171

本推文基于发表于IJGIS的《A Review of Location Encoding for GeoAI: Methods and Applications》并加以个人理解进行编写论文地址：https://doi.org/10.1080/13658816.2021.2004602 摘要许多地球科学中人工智能模型的一个普遍需求是编码各种类型的空间数据到一个隐藏的表征空间中以便可以轻松地将它们整合到深度学习模型中，例如点（例如，兴趣点），多边形（例如轨迹），多边形（例如，行政区域），图（例如，传输网络）

transformer中的positional encoding(位置编码)计算理解

qq_39783265的博客

06-16

2755

核心计算公式原理bert-transform 代码理解 #pytorch import torch import math max_len = 3 d_model = 4 pe = torch.zeros(3, 4) position = torch.arange(0, max_len).unsqueeze(1) div_term = torch.exp(torch.arange(0, d_model, 2) * -(math.log(1000

为什么要用位置编码

最新发布

04-29

### 位置编码的作用位置编码的主要作用在于解决 Transformer 架构中 Self-Attention 层无法区分输入序列顺序的问题。由于 Self-Attention 是排列不变的机制，即无论词序如何变化，其计算结果都相同，这使得模型失去了对输入序列中单词位置信息的理解能力[^1]。为了克服这一缺陷，位置编码被引入以赋予模型关于单词在序列中具体位置的信息。 #### 绝对位置编码绝对位置编码通过为每个单词分配特定的位置表示来增强模型的能力。这些位置编码通常与单词嵌入相结合后再传递给后续网络层。这种结合可以通过简单的加法操作完成，即将位置编码向量直接叠加到原始单词嵌入之上[^1]。这种方式确保了即使在不改变原有架构的情况下也能有效注入位置信息。 ##### 实现方式 - **固定式**: 使用固定的数学函数生成位置编码值，最典型的例子就是原版 Transformer 中提出的基于正弦和余弦波的形式化方法[^1]。 - **可学习式**: 初始化一组随机参数作为初始位置编码，并允许它们随着训练过程逐步调整优化至最佳状态。这种方法常见于 BERT 和 GPT 这样的预训练语言模型之中。 ### 应用场景 #### 自然语言处理 (NLP) 在 NLP 领域，无论是机器翻译还是情感分析等任务都需要依赖精确的时间步长关系来进行预测或分类工作。因此，在这类应用里加入适当形式的位置编码显得尤为重要。例如谷歌推出的 Codey 工具也内置支持多种程序设计语言的功能特性解析器，其中必然涉及复杂的语法结构理解需求，而这背后离不开高效的位置敏感型表达学习框架的支持[^2]。 #### 图像识别与其他模态转换任务虽然传统卷积神经网络(CNNs)天然具备局部感受野从而能较好捕捉空间布局特征；但对于某些特殊类型的跨领域迁移问题比如视频帧间动作检测或者医学影像分割，则可能更倾向于利用一维时间维度上的连续采样点形成序列后送入带有显式位置指示符标记过的 transformer 结构去进一步挖掘潜在规律模式[^3]。 ```python import numpy as np def get_positional_encoding(max_len, d_model): pe = np.zeros((max_len, d_model)) position = np.arange(0, max_len).reshape(-1, 1) div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model)) pe[:, 0::2] = np.sin(position * div_term) pe[:, 1::2] = np.cos(position * div_term) return pe ``` 上面展示了一个用于创建标准 sin-cos 形式的绝对位置编码矩阵的小片段代码示例。