google 两篇关于 word2vec 的论文:
[1]Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
[2]Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.
google word2vec 项目地址
---------------------
1. 背景
(1) 机器学习数据预处理方法:
在 word2vec 出现之前,机器学习数据预处理的 自然语言处理的方法 一般是把 字词 转为 离散的单独的符号,也就是 One-Hot Encoder。具体内容参照我的上一篇博客:数据预处理1:独热编码(One-Hot)。鉴于该篇博客介绍的 One-Hot 编码的缺点,2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。