从词袋法到词嵌入,词向量是如何演进的

转载自: https://www.bilibili.com/video/BV1CWV6zKEBn/?spm_id_from=333.337.search-card.all.click&vd_source=23c41e5d4f31a4e78f60af9ecdd3fcb7

路线

在这里插入图片描述

词袋法

  • 对于存在的值用1表示
  • 对于不存在的值用0表示
    在这里插入图片描述

词袋表示的结果:
在这里插入图片描述

词袋法种类

在这里插入图片描述

  • 有去重词袋法: 表示有没有 特定的词
    • 可以用于 垃圾邮件筛选
  • 无去重词袋法: 表示有多少 特定的词

TF-IDF

词频 & 关键词
在这里插入图片描述
上图中出现的频率最高,但是它是一个常见词不能作为关键词。
关键词: 应该是特别的,稀有的。

词频

在这里插入图片描述

稀有

总文档数/含有这个词语的文档数

在这里插入图片描述

log(总文档数/含有这个词语的文档数)

为了让稀有度更加平缓,常见的做法是用log.
在这里插入图片描述

TF-IDF(词频*稀有性)

在这里插入图片描述

关键词

在这里插入图片描述

word2vec

随着上述算法的演进,文本的向量从有没有 -> 有多少 -> 有多稀缺,NLP的处理效果也越来越好,但是他们都有一个共同的问题,没有捕捉到词语的语意。

影评情绪分类
在这里插入图片描述

都是同一个意思,但是上述的词向量是彼此孤立的,捕捉不到他们其实是一个意思。

如何捕捉到好和棒是意思相同的词呢?
google的做法是: 如果周围经常有相同的词出现,那么他们就是类似的。这个就是Word2Vec

Word2Vec(google)

在这里插入图片描述

模型训练

训练过程
在这里插入图片描述
上述的训练过程会不断的进行, 原本随机初始化的向量,也会不断的调整,并在一次次调整中逐渐稳定下来,这个过程叫做收敛

词表矩阵/嵌入矩阵(Word Embedding)

收敛之后,我们丢掉神经网络参数,保留词语的向量矩阵,这个叫作词表矩阵(或嵌入矩阵)

在这里插入图片描述
后续开展其它的NLP任务时,不再临时的计算词向量,拿着词语到词表中匹配,就可以得到词向量

如果是词表中不存在的词怎么办,这种情况很少见,给一个默认值即可.

CBOW vs Skip-Gram

在这里插入图片描述

相似度

其实每一次预测,都是在问:猜猜我周围有谁,模型发现棒,好 经常出现在很 非常 等相同的词语旁边,就会意识到这两个词有相似的语意,这种相似性会体现词表矩阵中。
我们可以用余弦相似度 计算向量的相关性.

在这里插入图片描述

Word2Vec的理念

想要了解一个人(词),看看他周围都有谁.

词表矩阵的缺陷

上述的方法均没有考虑词语的顺序

比如:我爱你你爱我 均有相同的词向量,在数学上二者是相等的。

而且没有考虑到一词多义的意思。

比如: Apple可以表示苹果,也可以表示苹果手机.

接下来需要考虑的是:根据语境,动态计算词向量

Embedding模型

Transformer Attention机制: 可以让模型根据实际的上下文语境,捕捉到文本的语意.

目标
在这里插入图片描述
常见的有**BGE(BAAI General Embedding)**模型.

训练BGE

在这里插入图片描述

S正越大+S负越小,就说明模型的效果更好

损失函数

在这里插入图片描述

模型收敛

下次应用,不再是只匹配词表,而是将文本输入到调好的模型中,模型的attention机制会充分捕获上下文信息,根据语境动态计算词向量.
在这里插入图片描述

BEG样本

在这里插入图片描述

一句话,前方百计的用样本给模型制造难度,如果模型连这种大家来找茬的游戏都能搞定,那么生成的向量相比具有极高的语意区分度。

这种大家来找茬的方法,叫做对比学习

一句话总结BGE

  • Transformer: 实现了语意的动态计算
  • 对比学习 :`提升了语意的区分度

小节

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值