说说GloVe

GloVe是基于全局词频统计的词表征工具,通过构建词共现矩阵,利用梯度下降训练词向量,捕捉单词间的语义特性。相比LSA和Word2Vec,GloVe结合了两者优点,性能更优。

1. 说说GloVe

正如GloVe论文的标题而言,**GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。**我们通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。

2. GloVe的实现步骤

2.1 构建共现矩阵

什么是共现矩阵?

共现矩阵顾名思义就是共同出现的意思,词文档的共现矩阵主要用于发现主题(topic),用于主题模型,如LSA。

局域窗中的word-word共现矩阵可以挖掘语法和语义信息,例如:

I like deep learning.	
I like NLP.	
I enjoy flying

有以上三句话,设置滑窗为2,可以得到一个词典:

{"I like","like deep","deep learning","like NLP","I enjoy","enjoy flying","I like"}

我们可以得到一个共现矩阵(对称矩阵):

img

中间的每个格子表示的是行和列组成的词组在词典总共同出现的次数,也就体现了共现的特性。

GloVe的共现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

刘训灼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值