GloVe:另一种Word Embedding方法

本文探讨了GloVe词向量模型与其竞品word2vec之间的相似性和差异,详细介绍了GloVe的实现过程,包括词频统计、共现统计、数据打散和词向量训练。同时,分享了作者对于算法创新与改进的看法。

GloVe 和 其他模型的关系

当看到GloVe拍脑门找到loglog函数的时候,就觉得和word2vec中应用language model有几分类似。
其实确有千丝万缕的联系的,推一推,会发现两者的相似性,不过我写到这里懒得写了,更多的细节有兴趣可以自己琢磨下。

GloVe 使用

GloVe已经在github开源,源码以及binary可以在GloVe Github找到。
GloVe的代码写的比较糙,每一步是独立的程序,因此要按照以下步骤进行:

  1. 运行./vocab_count 进行词频统计
  2. 运行./cooccur 进行共现统计
  3. 运行./shuffle 进行打散
  4. 运行./glove 进行训练词向量

具体参数和word2vec比较类似,具体用法可以见
https://github.com/stanfordnlp/GloVe/blob/master/demo.sh

Reference

[1] (Paper) GloVe: Global Vectors for Word Representation
[2] CS224N Lecture 3 | GloVe: Global Vectors for Word Representation
[3] GloVe Github
[4] word co-occurrence and theory of meaning
[5] Bag-of-words_model
[6] 奇异值分解(SVD)原理详解及推导
[7] 强大的矩阵奇异值分解(SVD)及其应用
[8] We Recommend a Singular Value Decomposition

费尽心思写了一个自己不那么喜欢的模型感觉有些奇怪,不过这是一篇很励志的paper和算法,它告诉我两个道理:
1. 发吊文章不一定需要特别吊的算法,也可以在老算法上改进一下,没准就很厉害
2. 斯坦福的厉害人物偶尔也会划划水
当然GloVe本身很厉害,只是写完了文章,调侃一下。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值