Bert的三个Embedding可以相加吗

最新推荐文章于 2024-12-12 13:15:00 发布

Artiken

最新推荐文章于 2024-12-12 13:15:00 发布

阅读量248

点赞数 2

文章标签： bert embedding 人工智能

本文链接：https://blog.youkuaiyun.com/qq_56583393/article/details/143274482

版权

（1）三个Embedding相加的逻辑

Bert采用的是将这三个嵌入向量简单相加，而不是直接拼接（concat）。这是因为在高维空间中，线性加法能够通过对每个维度的线性组合，保持各自嵌入的特征独立性。尽管相加看似简单，但它能够很好地融合来自词、位置和段落的三种不同信息，使得模型可以捕捉到句子中每个词的语义、顺序和段落关系。

（2）相对位置的更优解：RoPE

尽管Bert通过直接相加的方式来处理这些Embedding，后来一些技术方案如RoPE（旋转位置嵌入）则提出了更具数学性和结构性的改进。RoPE利用旋转周期性来编码相对位置关系，并结合张量代数的原理，实现更精确的嵌入表示。这种方法不仅保留了位置的周期性，还提高了模型的泛化能力。

（3）更复杂的代数结构

在RoPE的设计中，引入了类似于复数的结构，通过旋转变换来表示位置信息的变化，这大大优化了传统位置嵌入方法。通过更复杂的代数结构，如哈密尔顿代数，可以在多维空间中进行旋转，从而为更复杂的任务提供了理论支持。这种方式比简单的线性加法更具弹性，适用于更高维度的任务场景。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Artiken

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

面试题：请原理上解释为什么 Bert 的三个 Embedding 可以直接加在一起

AI生成曾小健3

12-23

334

可以理解为word的表征；Segment Embedding可以理解为一句话的表征；可以相加的解释哈，虽然有些东西我们直观上操作没问题，但是到理论层面还行缺少定量的分析。汇聚的角度来看的话，三个表征的相加，是三个不同的的空间向量。，然后concat到一起，最后过一个MLP，和直接的。从信号处理的角度来看，表征可以理解为信号，先说明下Bert中的的三个表征指的是。，因此，叠加是可行的。2024年12月19日 11:18。的操作，这些叠加的信号可以在。从one-hot的角度来看，上去，然后再做信息的融合，

【NLP 20、Encoding（编码）和 Embedding（嵌入）】

m0_73983707的博客

02-04

1390

维度EncodingEmbedding语义保留无（仅符号化）高（捕捉语义相似性）计算开销低（静态计算）高（需训练参数）灵活性固定规则可自适应任务优化典型应用数据预处理、位置编码词向量、推荐系统、图表示学习场景推荐方法类别特征且维度低独热编码（简单高效）类别特征维度高（如用户ID）嵌入（避免维度灾难）序列位置信息位置编码（如 Transformer）需要捕捉语义相似性嵌入（如词向量）计算资源有限优先选择静态编码（如哈希编码）

参与评论您还未登录，请先登录后发表或查看评论

小学生也能听得懂的大模型 - Transformer 1

2401_85325557的博客

07-29

1313

参考 [小学生也能听得懂的大模型 Transformer 1]

为什么 Bert 的三个 Embedding 可以进行相加？

cancer_s的博客

12-12

666

不妨直接将三个one-hot特征concat起来得到的[1,0,0,0,1,0,0,1,0]，虽然形式上不再是one-hot了，但是可以将其映射到三个one-hot组成的特征空间，此时特征空间的维度为4。如此得到的word Embedding，事实上和concat后的特征：[1,0,0,0,1,0,0,1,0]，在过维度为[4+3+2,768]=[9,768]的全连接层，得到的向量其实是一样的。它的Position one-hot为[1,0,0]，它的segment one-hot为[1,0]。

AI大模型算法工程师经典面试题————为什么 Bert 的三个 Embedding 可以进行相加？

2401_85325557的博客

09-21

895

Token Embedding、Segment Embedding、Position Embedding的意义我已经清楚了，但是这三个向量为什么可以相加呢？相加后向量的大小和方向就变了，语义不就变了吗？

为什么Bert的三个Embedding可以进行相加，数学证明及代码

weiyaner的博客

03-28

3530

这是一个知乎上的经典问题，为什么 Bert 的三个 Embedding 可以进行相加？其中，苏剑林老师的解释感觉很有意思： Embedding的数学本质，就是以one hot为输入的单层全连接。请参考: https://kexue.fm/archives/4122 也就是说，世界上本没什么Embedding，有的只是one hot。现在我们将token,position,segment三者都用one hot表示，然后concat起来，然后才去过一个单层全连接，等价的效果就是三个Embedding相加

大模型算法工程师经典面试题————为什么 Bert 的三个 Embedding 可以进行相加？

u012374012的专栏

08-28

1020

参考：为什么 Bert 的三个 Embedding 可以进行相加？

BERT的三个Embedding详解

weixin_48185819的博客

12-20

3万+

BERT将输入文本中的每一个词（token)送入token embedding层从而将每一个词转换成向量形式两个嵌入层，segment embeddings和 position embeddings token embedding token embedding 层是要将各个词转换成固定维度的向量。在BERT中，每个词会被转换成768维的向量表示假设输入文本是 “I like strawberries”。下面这个图展示了 Token Embeddings 层的实现过程: 输入文本在送入

BERT系列-浅谈

weixin_43955484的博客

10-20

2866

BERT相关

NLP中关于embedding相加的思考

2301_79093491的博客

10-12

280

NLP模型中，包括了传统的NLP模型以及bert、LLM等，都可以认为是有着类似傅里叶变化的能力的，即识别出信号波是由什么原始的信号波叠加的。因此，在模型的训练过程中，相加后的embedding结果仍然可以被模型所解耦以及识别。"，题主提的问题大概意思是这样：BERT的input有三个embedding：Token embedding，Segment embedding， Position Embedding，这三个向量相加后，明明大小和方向都发生了改变，语义应该变了，为什么还能作为input的表征？

为什么Bert的三个Embedding可以进行相加？

zenRRan的博客

10-15

2706

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要9分钟跟随小博主，每天进步一丢丢整理：zenRRan来自：深度学习自然语言处理公众号学术分享，侵删~知乎问题：Token Embed...

本地如何通过Ollama部署llama3、phi3等本地大模型？

lvaolan8888的博客

06-06

1859

来运行阿里的通译千问大模型，生成内容质量还可以而且速度也很快，（题外：生成的文章如果收录不是很好，最好不要用markdown格式和html格式，直接用文本格式）包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

【nlp面试题】为什么Bert的三个Embedding可以进行相加？

火云明月的博客

06-08

2978

前言刚看到这个问题的时候有点蒙圈，三个Embedding是哪三个Embedding? 看来bert理解的还是不够，迅速查了下资料。bert中的三个Embedding包括Position Embedding、Token Embedding、Segment Embedding。为何可以相加，可以从矩阵运算的数学层面解释。大矩阵的乘法等于将矩阵切分成小的矩阵分别进行乘法，然后结果相加。下面的图片便于理解。参考 为什么Bert的三个Embedding可以进行相加？ ...

TensorFlow相关组件的安装

AAI666666的博客

01-11

2777

TensorFlow相关组件的安装

BERT.

gg13213的博客

10-11

775

BERTBERTBERT输入输出表征BERT预训练篇Masked LMNSPBERT损失函数BERT细节BERT输入BERT是怎么用Transformer的BERT问题 BERT BERT是基于transformer的双向编码器，旨在通过在上下文中共有的条件计算预先训练来自无标签文本的深度双向表示。 BERT的三个关键点：基于transformer结构（encoder端）大规模语料预训练深度双向模型，即BERT可以在训练阶段从所选文本的左右上下文中汲取信息。 BERT输入输出表征 BERT输入：

bert获得词向量_词向量详解：从word2vec、glove、ELMo到BERT

weixin_39589557的博客

11-20

4087

目前，词向量(又叫词嵌入)已经成为NLP领域各种任务的必备一步，而且随着bert elmo,gpt等预训练模型的发展，词向量演变为知识表示方法，但其本质思想不变。学习各种词向量训练原理可以很好地掌握NLP各种方法。生成词向量的方法有很多种，本文重点介绍word2vec,glove和bert。各种词向量的特点：One-hot：维度灾难 and 语义鸿沟矩阵分解(LSA)：利用全局语料特征，但SVD求...

BERT中的词向量指南，非常的全面，非常的干货

最新发布

03-02

### BERT模型的三层结构组成和功能 #### 1. 嵌入层 (Embedding Layer) 嵌入层负责将输入序列转换为密集向量表示。这一过程涉及三个部分：Token Embeddings、Segment Embeddings 和 Position Embeddings 的相加操作。Token Embeddings 将每个单词映射到一个高维空间中的向量；Segment Embeddings 用于区分句子A和句子B，在处理两个句子之间的关系时特别有用；Position Embeddings 则赋予模型位置感知能力，因为原始 Transformer 架构不保留任何顺序信息。对于每一个输入 token \( t_i \)，其对应的嵌入向量可以表达为： \[ E(t_i) = W_{token}(t_i) + W_{segment}(s) + W_{position}(i) \] 其中 \( s \) 表示该 token 所属的句子段落，\( i \) 是它在句子中的相对位置[^1]。 ```python import torch.nn as nn class BertEmbeddings(nn.Module): def __init__(self, vocab_size, hidden_size, max_position_embeddings, type_vocab_size): super(BertEmbeddings, self).__init__() self.word_embeddings = nn.Embedding(vocab_size, hidden_size) self.position_embeddings = nn.Embedding(max_position_embeddings, hidden_size) self.token_type_embeddings = nn.Embedding(type_vocab_size, hidden_size) def forward(self, input_ids, token_type_ids=None): seq_length = input_ids.size(1) position_ids = torch.arange(seq_length).unsqueeze(0).expand_as(input_ids) words_embeddings = self.word_embeddings(input_ids) position_embeddings = self.position_embeddings(position_ids) token_type_embeddings = self.token_type_embeddings(token_type_ids) embeddings = words_embeddings + position_embeddings + token_type_embeddings return embeddings ``` #### 2. 编码器层 (Encoder Layers) 编码器由多个相同的子层堆叠而成，每一层都包含了多头自注意机制（Multi-head Self-attention Mechanism）以及前馈神经网络（Feed-forward Neural Network）。这种设计使得模型能够在并行计算的同时捕捉长距离依赖性和复杂的模式匹配。具体来说，BERT-Base 使用了12个这样的编码器层，而 BERT-Large 则扩展到了24层，从而增强了模型的表现力[^2]。 #### 3. 池化层 (Pooling Layer) 池化层通常位于最后一层编码器之后，用来提取整个输入序列的一个固定长度的特征表示。最常见的方式是从第一个标记 `[CLS]` 对应的位置获取隐藏状态作为句子级别的表征。这个向量可以直接用于下游任务分类或其他类型的预测问题。此外，某些变体也可能采用其他形式的最大/平均池化策略来综合所有tokens的信息[^3]。 ```python def get_pooled_output(last_hidden_state): cls_token_embedding = last_hidden_state[:, 0, :] pooled_output = nn.Tanh()(cls_token_embedding) return pooled_output ```