来源:http://blog.youkuaiyun.com/itplus/article/details/37969519此博客叙述和推导较详细,
计算机能识别二进制数据,当原始数据是文本应该怎么办?
首先需要把文本数据转为化计算机能够识别的数据,接下来为介绍一种常用文本转化为词向量的方法word2vec
在学习word2vec之前需要学习如下知识
1. sigmoid函数
2. 逻辑回归
3. Bayes公式
4. Huffman编码和Huffman树
构造Huffman树即最优二叉树,word2vec也用到Huffman树,他把训练语料的词当做叶子结点,
其在预料中出现的次数当做权值,通过构造Huffman树来对每一个词进行Huffman编码,huffman
编码约定词频较大的左孩子节点为1,词频较小的右孩子节点为0
5.统计语言模型
统计语言模型是用来计算一个句子概率的概率模型
6.n-gram模型
7.CBoW模型
CBow模型是在一直到当前词yj的上下文X1k、X2k、、Xck预测yj
8.Skip-Gram模型
在已知当前此Xk的前提下预测上下文y1j、y2j、、、ycj
9.Negative sampling
思想每次把N个不相近的词分散开,使相近的词出现位置较靠近
10.Hierachy softmax
利用huffman树带权路径值计算每个叶子节点的概率