Word2Vec
记得之前接触NLP是用朴素贝叶斯分类器来判断语句是否文明。用的独热编码,但是当词库巨大时,会变得很稀疏,而且词和词的关联完全看不出来,因此引入词汇分布式表示。
- 将vector每一个元素由整形改为浮点型,变为整个实数范围的表示;
- 将原来稀疏的巨大维度压缩嵌入到一个更小维度的空间;
Word2Vec是用来进行词嵌入的模型。有两种训练模式:
- CBOW (Continuous Bag-of-Words Model):通过上下文预测当前词
- Skip-gram (Continuous Skip-gram Model):通过词语预测上下文
下图是Skip-Gram模型训练图
随机梯度上升推导:http://www.cnblogs.com/pinard/p/7243513.html