**
Doc2vec
**
1.Word2vec和Doc2vec做Word Embedding和Sentence/Document EMbedding。
2.NLP中最直观常用的一种词表示方法是one-hot方法,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。
举个例子来说:“科比”可能表示为[0001000000…],而“篮球”可以表示为[0000000100000…]
3.one-hot的表示方法是一种稀疏表示方式,虽然在很多情况下one-hot表示方法已经取得了不错的效果,但是这种词表示方法也引起了一些问题。首先,one-hot表示方法可能造成维数灾难,如果词表很大,则每一个词就表示为除了该词所在的索引处为1外,其他全为0的一个很长的向量,这会给机器运算造成很大的困难。其次,one-hot表示方法表示的两个词的词向量是孤立的,不能从两个词的向量中看出两个词之间的语义关系。
4.使用one-hot表示向量的问题:
A.不能分辨细节差别(美丽==漂亮)
B.需要大量人为劳动(专家文本分析)
C.主观(以前和现在词的意思发生变化)
D.无法发现新词(不能主动发现词,and放在那里)
E.难以精确计算词之间的相似度
5.One_hot:
语料库:John likes to watch moives.Mary likes too.
John also likes to watch football games.
词典:{”John”:1,”likes”:2,…”too”:10} ===》 {词:index}
One_hot 【每个单词都有唯一的索引】
Jone[1,0,0,0,0,0,0,0,0,0]
‘’’’’
too[0,0,0,0,0,0,0,0,0,0,1]
6.离散表示问题:
a)无法衡量词向量之间的关系
酒店[0,1,0,0,0,…]
宾馆[0,0,0,01,0,0,…]
太过于稀疏,难以捕捉文