从零开始了解transformer的机制|第一章：word embedding

最新推荐文章于 2025-04-05 16:46:31 发布

原创

最新推荐文章于 2025-04-05 16:46:31 发布 · 991 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #自然语言处理 #深度学习

文章介绍了如何将输入词汇转化为机器可理解的向量形式，从one-hot编码的问题出发，探讨了wordembedding的概念，包括其优点、固定与可训练的区别，以及词向量模长的相关性。

transformer第一步：把输入的词拆分，并且表示为机器能看懂的语言——word embedding

首先要对输入的词汇进行处理。那我们就要想一下：怎么表达词汇能够让机器看得懂呢？

答案是：通过向量来表示单词。

那每个单词表示成的向量长什么样呢？

朴素的想法，我们可能会开一个向量，向量的长度就是所有词汇的总和。向量中每个位置代表一个词（例如第一个位置代表abandon，第二个位置代表an）然后abandon这个词就用（1,0,0...）表示，an这个词就用（0,1,0...）来表示。

例如：

这个方法就叫one-hot编码。

one-hot编码直观，好理解。但是这种编码会有两个问题：

1.浪费存储空间。每个单词的向量长度都很长，而且有很多0这种无效信息。

2.无法明确表达各个词之间的关联性。

所以，我们不用one-hot编码，而用word-embedding。

所谓word-embedding。就是：

把每个单词变成一个多维的数字向量。你可以把这个向量想象成是词汇空间里的一个点，而每个维度代表了某种词汇特性，比如语义（意义）或者上下文关系。这样一来，相似意义的单词在向量空间中就会靠得比较近，而不相关的单词则会离得远一些。

举个例子，假设我们有一个二维的词汇空间，其中 x 轴代表“好坏”属性，y 轴代表“正面负面”属性。那么单词 "happy" 可能会被表示成 (3, 5)，而 "sad" 可能是 (-2, -4)。你可以看到，"hap

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。