transformer第一步:把输入的词拆分,并且表示为机器能看懂的语言——word embedding
首先要对输入的词汇进行处理。那我们就要想一下:怎么表达词汇能够让机器看得懂呢?
答案是:通过向量来表示单词。
那每个单词表示成的向量长什么样呢?
朴素的想法,我们可能会开一个向量,向量的长度就是所有词汇的总和。向量中每个位置代表一个词(例如第一个位置代表abandon,第二个位置代表an)然后abandon这个词就用(1,0,0...)表示,an这个词就用(0,1,0...)来表示。
例如:

这个方法就叫one-hot编码。
one-hot编码直观,好理解。但是这种编码会有两个问题:
1.浪费存储空间。每个单词的向量长度都很长,而且有很多0这种无效信息。
2.无法明确表达各个词之间的关联性。
所以,我们不用one-hot编码,而用word-embedding。
所谓word-embedding。就是:
把每个单词变成一个多维的数字向量。你可以把这个向量想象成是词汇空间里的一个点,而每个维度代表了某种词汇特性,比如语义(意义)或者上下文关系。这样一来,相似意义的单词在向量空间中就会靠得比较近,而不相关的单词则会离得远一些。
举个例子,假设我们有一个二维的词汇空间,其中 x 轴代表“好坏”属性,y 轴代表“正面负面”属性。那么单词 "happy" 可能会被表示成 (3, 5),而 "sad" 可能是 (-2, -4)。你可以看到,"hap

文章介绍了如何将输入词汇转化为机器可理解的向量形式,从one-hot编码的问题出发,探讨了wordembedding的概念,包括其优点、固定与可训练的区别,以及词向量模长的相关性。
最低0.47元/天 解锁文章
4031

被折叠的 条评论
为什么被折叠?



