Glove词向量资料

Doooer

于 2018-07-24 23:07:44 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/YQMind/article/details/81193876

深度学习专栏收录该内容

21 篇文章

订阅专栏

很棒的资料：https://blog.youkuaiyun.com/coderTC/article/details/73864097

$\sum_{ij}^N f(X_{ij})(v_i^Tv_j + b_i + b_j - log(X_{ij}))^2$

Glove基于词的共现矩阵 $X$ 来学习词向量，考虑了全局统计信息，同时设置了权重函数 $f$ ，使得当词频过高的时候，权重没有过分增大。

具体来说，在Glove中，不是将整个corpus作为输入，而是统计出词的共现矩阵X，后面基于这个X进行学习。
统计共现矩阵X：
$X_{i,j}$ 表示在一个窗口中，单词i和单词j同时出现的次数。
这个过程是，依次将语料库里的单词作为窗口中心词，然后确定其左右两边的单词，从而得到一个窗口。 $X_{中心词，左右两边的词} += 1$

从代价函数看出，Glove没有使用神经网络的方法
$\sum_{ij}^N f(X_{ij})(v_i^Tv_j + b_i + b_j - log(X_{ij}))^2$

作者是从共现矩阵中发现了一定的规律，想让词向量与共现矩阵有很好的一致性，从而说明了词向量中也蕴含了共现矩阵中所蕴涵的信息。
上面列出的参考链接，详细地介绍了Glove优化目标是怎么得到的。
优化目标中， $f$ 函数是一个加权作用，本着共现频率越高，权重越大的原则。同时，为了当频率过高时，权重不应过分增大，作者设计的权重函数是：
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。