词向量-Glove理解推导

Glove模型旨在通过词向量表示捕获语义和语法信息,其代价函数基于词共现频率的对数。模型推导中,使用向量差来表示相对概率比值,并通过点积保持线性结构。最终目标是最小化带有权重的均方误差损失函数,以训练得到相加后的词向量作为结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Glove模型

模型目标:进行词的向量化表示,使得向量之间尽可能的蕴含语义和语法的信息

Glove用词向量表达共现词频的对数

代价函数:

模型推导 (不是很严谨)

首先给予一些定义

共现词频Xi,j 表示若中心词为i,语境词j出现的次数,通俗一点就是说单词i和单词j在给定滑动窗口数时同时出现的次数

Xi表示单词出现的总次数

表示单词k出现在单词i语境中的概率

表示在中心词为i时,k出现概率与中心词为j时,k出现概率的比值,用来衡量相对性

由于计算比值复杂度比较高(当然是数据量比较大的时候啦),所以想要找到一个F代替,即使得

由于向量空间本质上是线性结构,因此最自然的方法是使用向量差。这样,我们就可以把注意力限制在那些只依赖于两个目标词的差异的函数f上。 

上式左边是向量,而右边则是标量,会使我们试图捕捉的线性结构变得模糊,为了避免这个问题我们对参数取点积得到 

通过Pi,k的表达式可转换得到

取F(x) = exp(x) ,左右两边同时取log,可得到

 同时我们应该考虑到对称性(单词i单词j出现的次数和单词j单词i出现的次数理应是一样的) ,故将log(xi)表示为bi,b~k

 我们的目标就是二者间最小,考虑到最常用的衡量方式便是均方误差,同时考虑到出现频率越高词权重越大的原则,加上权重项可得代价函数

其中权重函数为

经过实验对比,通常取alpha为0.75,Xmax为100,此权重公式可以将过,出现频率过大的权重给拉低,同时使得出现频率为0的权重项也为0,不计入loss function中,f(x)的图形如下。

其实这个代价函数转变的形式比较随意,是根据我们想要的方便的形式转变的,为了方便我们训练,但是无论怎么变形,我们的最终目的就是训练得到单词向量的两个表达W和W~。

这两个向量理应相等,但是可能由于初始化的愿意使两个向量间有略微差别,并且有证据表明,对于某些类型的神经网络,

训练网络的多个实例,然后将结果结合起来,有助于减少过拟合和噪音,通常会提高结果,所以我们将两个向量相加最为我们最终训练得到的词向量

参考论文:GloVe: Global Vectors forWord Representation

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值