从零开始了解transformer的机制|第一章:word embedding

文章介绍了如何将输入词汇转化为机器可理解的向量形式,从one-hot编码的问题出发,探讨了wordembedding的概念,包括其优点、固定与可训练的区别,以及词向量模长的相关性。

transformer第一步:把输入的词拆分,并且表示为机器能看懂的语言——word embedding

首先要对输入的词汇进行处理。那我们就要想一下:怎么表达词汇能够让机器看得懂呢?

答案是:通过向量来表示单词。

那每个单词表示成的向量长什么样呢?

朴素的想法,我们可能会开一个向量,向量的长度就是所有词汇的总和。向量中每个位置代表一个词(例如第一个位置代表abandon,第二个位置代表an)然后abandon这个词就用(1,0,0...)表示,an这个词就用(0,1,0...)来表示。

例如:

 

这个方法就叫one-hot编码。

one-hot编码直观,好理解。但是这种编码会有两个问题:

1.浪费存储空间。每个单词的向量长度都很长,而且有很多0这种无效信息。

2.无法明确表达各个词之间的关联性。

所以,我们不用one-hot编码,而用word-embedding。

所谓word-embedding。就是:

把每个单词变成一个多维的数字向量。你可以把这个向量想象成是词汇空间里的一个点,而每个维度代表了某种词汇特性,比如语义(意义)或者上下文关系。这样一来,相似意义的单词在向量空间中就会靠得比较近,而不相关的单词则会离得远一些。

举个例子,假设我们有一个二维的词汇空间,其中 x 轴代表“好坏”属性,y 轴代表“正面负面”属性。那么单词 "happy" 可能会被表示成 (3, 5),而 "sad" 可能是 (-2, -4)。你可以看到,"hap

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值