Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation
1. Abstract
- 一篇关于词嵌入的论文
- 作者认为词嵌入所能给出的信息,远超人们的想象
- 主要贡献就是提出了词嵌入的后处理,以及 n n n阶相似度矩的含义及计算方法
2. Introduction
- 词嵌入是当下NLP领域的热点之一,诸多用于训练词的密集向量表示的非监督学习方法已经被相继提出,并成功用于句法分析、主题建模以及文本分类等领域
- 目前所有词嵌入构建的基本思想都是,利用大型单语语料库中的同现统计(co-occurrence statistics ),以及相似词汇必定出现在相似文本环境中的分布式假设,将相似的向量表示分配给相似的词汇
- 但是如何定义“相似”,或者说嵌入模型应该捕捉词语之间什么样的关系仍不明确。例如有些人将真实相似性(轿车-汽车)与关联性(车-公路)加以区分,有些人认为应重点关注语义(唱歌-咏唱)和语法(sing-singing)相似度。总而言之,也就是将相似度衡量的两个轴划分为了语义/语法轴,相似/关联轴。
3. Proposed post-processing
X X X | X i ∗ X_{i*} Xi∗ | s i m ( i , j ) = X i ∗ ⋅ X j ∗ sim(i,j)=X_{i*}·X_{j*} sim(i,j)=Xi∗⋅Xj∗ |
---|---|---|
词嵌入矩阵 | 第 i i i个词的嵌入向量 | 词 i i i和词 j j j的相似度 |
-
从上表可以得知,如果定义一个相似度矩阵 M ( X ) = X X T M(X)=XX^T M(X)=XXT,那么显然就有 s i m ( i , j ) = M ( X ) i j sim(i,j)=M(X)_{ij} sim(i,j)=M(X)ij。
-
基于上述定义的一阶相似度量方法,可以延伸到二阶相似,即相似度并不体现在两个词有多相似,而是这两个词与第三个词有多相似(猫-哺乳动物,鲸鱼-哺乳动物)。这种情况下,即便这两个词不是很相似,但如果它们同时与另外一个词有着较高的相似度,我们就认为这两个词二阶相似。以此类推,还有三阶相似, N N N阶相似等。
-
定义二阶相似度矩阵 M 2 ( X ) = X X T X X T M_2(X)=XX^TXX^T M2(X)=XXTXXT,从而 s i m 2 ( i , j ) = M 2 ( x ) i j sim_2(i,j)=M_2(x)_{ij} sim2(i,j)=M2(x)ij,并且可以看出 M 2 ( X ) = M ( M ( X ) ) M_2(X)=M(M(X)) M