word2vec是早期NLP的必要预处理过程,其用于生成词的向量表示(embeding)。
其将单词映射为固定长度的向量(embeding向量),而通过向量表示可以更好地表达不同词之间的相关性,因此会使得后续的分类、生成等NLP任务更好地学习训练。word2vec描述不同词之间的相关性,主要是指词同其上下文的其他词的共现性,主要有两种范式:
- 跳元模型Skip-gram:其是假设通过中心词
生成其上下文
,因此其目标是在中心词下,其上下文的条件概率
最大,即如下优化式子,C表示中心词的数量,k表示上下文窗口数。
- 连续词袋CBOW:其是假设通过上下文
生成中心词
,因此其目标在上下文下,其中心词生成条件概率
最大,即如下优化式子:
本文重点介绍跳元模型Skip-gram