为什么 Bert 的三个 Embedding 可以进行相加？

最新推荐文章于 2025-05-17 13:34:47 发布

Jacob_AI

最新推荐文章于 2025-05-17 13:34:47 发布

阅读量663

点赞数 3

文章标签： bert embedding 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/cancer_s/article/details/144415667

版权

Embedding的本质

Embedding的数学本质，就是以one hot为输入的单层全连接。

也就是说，世界上本没什么Embedding，有的只是one hot。

现在我们将token,position,segment三者都用one hot表示，然后concat起来，然后才去过一个单层全连接，等价的效果就是三个Embedding相加。

在这里用一个简单的例子在尝试理解一下：

假设Token Embedding矩阵的维度为[4,768]，Position Embedding的矩阵维度为[3,768]，Segment Embedding矩阵维度为[2,768]。

对于一个word来说，假设它的Token one-hot为[1,0,0,0] ; 它的Position one-hot为[1,0,0]，它的segment one-hot为[1,0]。

那么这个字最后的word Embedding，就是上面三种Embedding相加之和。

如此得到的word Embedding，事实上和concat后的特征：[1,0,0,0,1,0,0,1,0]，在过维度为[4+3+2,768]=[9,768]的全连接层，得到的向量其实是一样的。

我们可以再换一个角度进行理解：

不妨直接将三个one-hot特征concat起来得到的[1,0,0,0,1,0,0,1,0]，虽然形式上不再是one-hot了，但是可以将其映射到三个one-hot组成的特征空间，此时特征空间的维度为432=24，而在这个新的特征空间中，这个字的one-hot就是[1,0,0,0…] (23个0)。

此时，Embedding的矩阵维度就是[24,768]，最后得到的word Embedding依然是和上面等效，但是三个小Embedding矩阵的大小会远远小于新特征空间对应的Embedding矩阵大小。

当然，在相同初始化方法的前提下，两种方式得到的word Embedding可能方差会有差别，但是BERT模型还有Layer Norm，会把Embedding结果统一到相同的分布。

所以BERT的三个Embedding相加，本质上可以看做一个特征融合，强大如BERT应该可以学到融合后特征的语义信息的。

转自知乎，侵权删：
https://www.zhihu.com/question/374835153

博客等级

码龄5年

57
原创

857
点赞

570
收藏

467
粉丝

关注

私信

热门文章

分类专栏

大模型 2篇

展开全部收起

最新评论

大模型 VS 大语言模型
Jacob_AI: 补充一下：大模型是一种基于大量数据训练的人工智能模型，具有强大的下游任务自适应能力。相对于传统的人工智能模型，大模型可以处理更多的领域和任务，其优势主要体现在以下几个方面：参数规模大：大模型拥有上亿甚至千亿级的参数，这使得它们可以处理更加复杂和抽象的任务，具有更强的泛化能力。数据依赖性：大模型的训练依赖于大量的数据，这些数据覆盖了各种场景和情况，使得大模型能够更好地理解和处理各种复杂的问题。适应性强：大模型可以适应各种不同的任务和领域，只需要通过少量的样本进行微调，就可以达到很好的效果。对于少量样本的提示，大模型具有以下优势：快速适应：大模型具有很强的泛化能力，少量样本的提示可以使其快速适应新的任务和领域。提高准确度：少量样本的提示可以减少模型的过拟合风险，提高模型的准确度。节省资源：相对于重新训练模型，少量样本的提示可以节省大量的计算资源和时间。综上所述，少量样本的提示对于大模型的回答的准确度具有很大的优势，可以提高模型的适应性和准确度，同时节省资源。
大模型 VS 大语言模型
征途黯然.: 在大模型VS大语言模型方面的专业知识令人钦佩，文章非常有价值。

大家在看

Java 后台开发中 CPU 飙高原因及解决方案深度解析

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。