Glove学习笔记

本文介绍了LSA(局部上下文窗口)与word2vec的全局向量表示方法,重点讲解了Glove模型,它通过统计中心词和上下文词的共现关系,利用窗口大小和权重函数优化词向量的损失函数。视频内容涵盖了共现矩阵的构建以及相关算法的推导和代码应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

global vectors for word representation

B站学习视频

1、LSA与word2vec

在这里插入图片描述
在这里插入图片描述
我们用我们的见解,构建一个新的模型,Glove,全局向量的词表示,因为这个模型捕捉到全局预料的统计信息。

在这里插入图片描述

  • LSA:全局矩阵分解
  • word2vec:局部上下文窗口(词语类比)

在这里插入图片描述
在这里插入图片描述
LSA构建的是词语与文档的共现矩阵。
在这里插入图片描述

  • SVD:奇异值分解

在这里插入图片描述

2、Glove

在这里插入图片描述
glove将词语分为中心词和上下文词,统计两者共同出现的次数。范围限制,窗口为1。
在这里插入图片描述
在这里插入图片描述
窗口大小为2,表示中心词前后大小为2的区域的词语才与中心词有共现关系,窗口之外的词语就不能称之为共现。
共现矩阵X为对称矩阵,共现次数和权重递减函数的乘积,从而达到距离越远的共现词对权重小,距离越近的共现词对权重大。
在这里插入图片描述

  • Xi:中心词语i总共出现的次数

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
概率之间的比值更能捕捉词语之间的相关和不相关关系。
具体推导过程:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
系列推导后得到最终方程:
在这里插入图片描述
模型的代价(损失)函数:
在这里插入图片描述
权重函数:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
通过视频中的讲解主要了解共现矩阵及词向量损失函数推导过程及代码的使用!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值