中文分词word2vec和doc2vec句向量的理解

**

Doc2vec

**
1.Word2vec和Doc2vec做Word Embedding和Sentence/Document EMbedding。
2.NLP中最直观常用的一种词表示方法是one-hot方法,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。
举个例子来说:“科比”可能表示为[0001000000…],而“篮球”可以表示为[0000000100000…]
3.one-hot的表示方法是一种稀疏表示方式,虽然在很多情况下one-hot表示方法已经取得了不错的效果,但是这种词表示方法也引起了一些问题。首先,one-hot表示方法可能造成维数灾难,如果词表很大,则每一个词就表示为除了该词所在的索引处为1外,其他全为0的一个很长的向量,这会给机器运算造成很大的困难。其次,one-hot表示方法表示的两个词的词向量是孤立的,不能从两个词的向量中看出两个词之间的语义关系。

4.使用one-hot表示向量的问题:
A.不能分辨细节差别(美丽==漂亮)
B.需要大量人为劳动(专家文本分析)
C.主观(以前和现在词的意思发生变化)
D.无法发现新词(不能主动发现词,and放在那里)
E.难以精确计算词之间的相似度
5.One_hot:
语料库:John likes to watch moives.Mary likes too.
John also likes to watch football games.
词典:{”John”:1,”likes”:2,…”too”:10} ===》 {词:index}
One_hot 【每个单词都有唯一的索引】
Jone[1,0,0,0,0,0,0,0,0,0]
‘’’’’
too[0,0,0,0,0,0,0,0,0,0,1]
6.离散表示问题:
a)无法衡量词向量之间的关系
酒店[0,1,0,0,0,…]
宾馆[0,0,0,01,0,0,…]
太过于稀疏,难以捕捉文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值