面向语义关系的word2vec
文献:Hashimoto K, Stenetorp P, Miwa M, et al. Task-oriented learning of word embeddings for semantic relation classification[J]. arXiv preprint arXiv:1503.00095, 2015.
主要思想:
- 从词语间语义关系提取的任务入手,学习词的嵌入表示。
具体过程
(1)词的嵌入表示
对于位于矩阵中的名词对n=(n1,n2),具有三个方面的信息:n1之前的词Wbef,n1与n2之间的词Win,n2之后的词Waft, 其中,
- Wbef=(wbef1,⋯,wbefMbef)
- Win=(win1,⋯,winMin)
- Waft=(waft1,⋯,waftMaft)
通过对这三个方面的信息进行连接与均值操作,进而构造用以预测词wini的特征向量如下(f∈R2d(2+c)×|W|):
- f=[N(n1);N(n2);W(wini−1);⋯;W(wini−c);W(wini+1);⋯;W(wini+c);1Mout∑j=1MoutW(wbefj);1Mout∑j=1MoutW(waftj)]
进而有如下形式logistic预测模型:
- p(w|f)=σ(W~(w)⋅f+b(w))
其中W~(w)为权重向量,b(w)为偏置,W~∈R2d(2+c)×|W|的每一列对应一个词向量。在利用无标签数据训练预测模型时,若直接采用穷举法,则会导致prohibitive的计算代价,由于|W|是一个非常大的数。如何办?
负采样(negative sampling):运用unigram噪声分布随机采样k个与wini相比较的词w′j, 在此基础上嵌入表示学习可通过最大化如下目标函数来实现:
- Junlabelled=∑n∑i=1Min(log(p(wini|f))+∑j=1klog(1−p(w′j|f)))
(2)构建词的语义关系特征
对于句子中的名词对(n1,n2), 其特征主要包括:自身特征gn, 中间词特征gin与外部词特征gout.
gn=[N(n1);N(n2)]
gin=1Min∑i=1Minhi, 其中hi=[W(wini−1);⋯;W(wini−c);W(wini+1);⋯;W(wini+c);W~(wini)]
gout=1Mout[∑j=1MoutW(wbefj);∑j=1MoutW(waftj)]
则样本k的特征向量可记为ek=[gn;gin;gout]
(3)有监督的语义关系学习
L类的有监督学习的实质就是最大化如下概率:p(lk|ek)=exp(o(lk))∑Li=1exp(o(i)), 其中o=S⋅ek+s, S与
进而有如下目标函数:
Jlabeled=∑k=1Klog(p(lk|ek))−λ2∥θ∥2 其中θ=(N,W,W~,S,s)