文献:Liu Q, Jiang H, Wei S, et al. Learning Semantic Word Embeddings based on Ordinal Knowledge Constraints[C]. ACL 2015: 1501-1511.
Motivation
1)纯数据驱动的SWE有可能使得一些反义词之间的距离比同义词之间的距离还要小;2)语料库的不完备(语义相近的一对词却在数据中较少共现)可能使得无法准确捕捉近义词对间的关系。
基本思想
将语义知识表示成条件不等式,从而可将SWE形式化条件最优问题。
构造语义不等式的规则
同义反义规则: sim(wi,wj)>sim(wi,wk),wi与wj是同义词,wi与wk是反义词.
语义类别规则: 在wordnet、freebase等语义知识库中,处于同一语义类别中的词语间具有更大相似度.
语义层次规则
语义不等式与skip-gram模型相结合
- Q=1T∑t=1T∑−c⩽j⩽c,j≠0logp(wt+j|wt),其中 t 为目标词.
- {W(1),W(2)}=argmaxW(1),W(2)Q(W(1),W(2))
将所有的语义不等式sij>sik,∀(i,j,k)∈S转化为D=∑(i,j,k)∈Sf(i,j,k),从而可将skip-gram模型中的Q函数转变为Q′=Q−β⋅D,其中f(i,j,k)可以用不同的规范函数来实现。例如:sigmoid函数f(i,j,k)=1/(1+exp(sij−sik)) 或者 hinge函数f(i,j,k)=max(δ,sij−sik)