文献:RF Astudillo , S Amir , W Lin , M Silva , I Trancoso. Learning Word Representations from Scarce and Noisy Data with Embedding Sub-spaces[C]. ACL 2015:1074–1084
Motivation
NLP中有监督学习任务的通常做法是:利用无监督词嵌入算法完成词嵌入层的初始化,然后利用应用领域内的有标签数据进行基于误差反向传播的词嵌入更新。当面临有标签数据非常稀疏且噪声很大时,使得模型有严重的学习过度问题、未知单词无法实现嵌入向量的更新,也即是传统方法难以适用。
方法
考虑到结构化skip-ngram模型要优化的概率是p(wp=j|w=i)=exp(Cpj⋅E⋅wi), w=i表示当前窗口中心词是vocabulary中的第i个词,
学习S并以
给定文本序列