论文记录笔记NLP(五)：Glove-优快云博客

本文链接：https://blog.youkuaiyun.com/zr940326/article/details/105241343

这篇笔记主要是结合，各种学习资源，整理而成的查找笔记，整理的不好，还望指出错误，主要是用于查找与记录。

Glove：基于全局共现信息的词表示

--Glove，在word2vec基础上的一种改进方法

摘要：

最近学习单词的向量空间表示（vector space representations of words）的方法已成功地使用向量算法（vector arithmetic）捕获细粒度的语义（fine-grained semantic）和句法规则（syntactic regularities ），但这些规则的起源仍然是不透明的（opaque）。我们分析并明确了（explicit）在单词向量中出现这种规则性所需的模型属性（model properties）。结果是一个新的全局logbilinear回归模型，它结合了文献中两个主要模型族的优点：全局矩阵分解（global matrix factorization）和局部上下文窗口方法（local context window methods）。我们的模型通过仅训练单词 - 单词共生矩阵（cooccurrence matrix）中的非零元素而不是整个稀疏矩阵（entire sparse matrix）或大型语料库（a large corpus）中的各个上下文窗口来有效地利用（leverages）统计（statistical ）信息。该模型产生一个具有有意义子结构（meaningful substructure）的向量空间，其最近一个单词类比任务（word analogy task）的性能为75％。它在相似性任务（similarity tasks）和命名实体识别（named entity recognition）方面也优于相关模型。

1. 简介

语言的语义向量空间模型（Semantic vector space models）用实值向量表示每个单词。这些向量可以用作各种应用中的特征，例如信息检索（information retrieval）（Manning等，2008），文档分类（document classification）（Sebastiani，2002），问题回答（question answering）（Tellex等，2003），命名实体识别（named entity recognition）（Turian） et al，2010）和解析（Socher et al，2013）

大多数单词向量方法（Most word vector methods）依赖于单词向量（pairs of word vectors）对之间的距离或角度（angle ），作为评估这样一组单词表示的内在质量（intrinsic quality）的主要方法。最近，Mikolov等人。（2013c）引入了一种基于单词类比（word analogies）的新评估方案（evaluation scheme），通过检查单词向量之间的标量距离（ scalar distance），而不是它们各种不同的差异，探讨（probes）单词向量空间的更精细结构（the finer structure），例如，类比“国王是女王，男人是女人”应该在向量空间中由向量方程式王 - 女王=男人 - 女人编码（be encoded in）。该评估方案（This evaluation scheme）倾向于（favors ）产生意义维度（dimensions of meaning）的模型，从而捕获（thereby capturing）分布式表示的多聚类（multi-clustering）思想（Bengio，2009）.

学习单词向量（learning word vectors）的两个主要模型族（model families）是：**1）全局矩阵分解方法（global matrix factorization），如潜在语义分析（ latent semantic analysis–LSA）（Deerwester等，1990）和2）**局部上下文窗口方法（local context window methods），如skip-gram模型 Mikolov等（2013c）。目前，两类模型方法（both families）都有明显的缺点（ significant drawbacks）。虽然像LSA这样的方法有效地利用（efficiently leverage）了统计信息，但它们对类比任务（word analogy task）这个词的表现相对较差（relatively poorly），表明了次优的向量空间结构（ sub-optimal vector space structure）。像skip-gram这样的方法在类比任务（word analogy task）上可能做得更好，但是它们很难利用（ poorly utilize）语料库的统计数据（the statistics of the corpus），因为它们在单独的本地上下文窗口（local context windows）而不是在全局共现计数（global co-occurrence counts）上进行训练。