词向量(从one-hot到word2vec)

词向量的意思就是通过一个数字组成的向量来表示一个词,这个向量的构成有很多种方法,如one-hot编码、基于共现矩阵的方式、word2vec、动态词向量ELMo等。

一、one-hot向量

在这里插入图片描述在这里插入图片描述
优势:简单易懂、稀疏存储

不足:维度灾难词汇鸿沟(向量之间都是孤立的)

二、基于共现矩阵的方式

在这里插入图片描述
在这里插入图片描述
上述矩阵是一个n*n的对称矩阵X,矩阵维数随着词典数量n的增大而增大,可以使用奇异值分解SVD将矩阵维度降低。但是仍存在问题:

  • 矩阵X的维度经常改变
  • 由于大部分词并不共现而导致的稀疏性
  • 矩阵维度过高带来的高计算复杂度

三、基于神经网络的方式(word embedding):word2vec

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值