什么是GloVe?
GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。我们通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。
GloVe是如何实现的?
GloVe的实现分为以下三步:
1. 共现矩阵
2. 词向量与共现矩阵关系
记住公式(1),随即 公式(2)就记住了。
3. 损失函数
GloVe是如何训练的?
Glove与LSA、word2vec的比较 (掌握与Word2Vec的比较)
公式推导 (略)
首先定义几个符号:
两个条件概率的比值 比 单个条件概率 能更好地表达共现矩阵的特性。
l
o
g
(
P
i
,
j
)
log(P_{i,j})
log(Pi,j)仍然可以继续展开。
GloVe KO~
