词向量相关总结

最近准备把词向量相关知识串一下,会持续更
主要参考:https://zhuanlan.zhihu.com/p/95304317
https://baijiahao.baidu.com/s?id=1622064575970777188&wfr=spider&for=pc

  • unigram模型:所有的词都是相互独立的
    P ( w 1 , w 2 , . . . , w n ) = ∏ i = 1 n P ( w i ) P(w_1,w_2,...,w_n)= \prod_{i=1}^n P(w_i) P(w1,w2,...,wn)=i=1nP(wi)
  • bigram模型:每一个词仅与前一个词相关
    P ( w 1 , w 2 , . . . , w n ) = ∏ i = 2 n P ( w i ∣ w i − 1 ) P(w_1,w_2,...,w_n)= \prod_{i=2}^n P(w_i|w_{i-1}) P(w1,w2,...,wn)=i=2nP(wiwi1)
  • ngram模型缺点:1.缺乏长期的依赖,因为只能建模到n-1个词,2.随着n的加大,计算和存储要求呈指数上涨,3.单纯基于统计词频,泛化能力差。
  • One-Hot编码:一个词为一个One-Hot向量,即一个位置是1,其余位置都是0,这种表示方法的最大缺点在于没办法表示出词语之间的相似性。
  • CBOW(Continuous Bag of Words):根据上下文预测中心词,每一个词会学习到两个向量,一个是词出现在上下文时的向量input vector ​v,和词出现在中心词时的向量output vector u:
  • Skip-gram模型:给定中心词,预测或者生成上下文词。
  • word2vec:其实是一种工具,支持它的两个模型为CBOW和Skip-gram,该类方法缺点是基于固定大小的窗口,对局部的语料进行特征提取。
  • GloVe:首先根据语料库去构建一个co-ocurrence matrix共现矩阵,其中每一个元素代表单词和上下文词在特定的上下文窗口内共同出现的次数,并且GloVe还提出了一个 decreasing weighting ,就是基于两个词在上下文窗口中的距离d,去给一个权重1/d,也就是说距离远的两个词,占总计数的权重就小;构建词向量和共现矩阵之间的近似关系。
  • Transformer结构:
    1.自注意力层:在编码某个单词时,就是将所有单词的表示(值向量)进行加权求和,而权重是通过该词的表示(键向量)与被编码词表示(查询向量)的点积并通过softmax得到
    在这里插入图片描述
    在这里插入图片描述
    2.多头注意力:它给出了注意力层的多个“表示子空间”(representation subspaces)。对于“多头”注意机制,我们有多个查询/键/值权重矩阵集(Transformer使用八个注意力头,因此我们对于每个编码器/解码器有八个矩阵集合)。这些集合中的每一个都是随机初始化的,在训练之后,每个集合都被用来将输入词嵌入(或来自较低编码器/解码器的向量)投影到不同的表示子空间中。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    3.位置编码:加入词之间的位置信息
    在这里插入图片描述
    4.transformer每一层的机构图:
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

勤劳的凌菲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值