词向量的意思就是通过一个数字组成的向量来表示一个词,这个向量的构成有很多种方法,如one-hot编码、基于共现矩阵的方式、word2vec、动态词向量ELMo等。
一、one-hot向量


优势:简单易懂、稀疏存储
不足:维度灾难、词汇鸿沟(向量之间都是孤立的)
二、基于共现矩阵的方式


上述矩阵是一个n*n的对称矩阵X,矩阵维数随着词典数量n的增大而增大,可以使用奇异值分解SVD将矩阵维度降低。但是仍存在问题:
- 矩阵X的维度经常改变
- 由于大部分词并不共现而导致的稀疏性
- 矩阵维度过高带来的高计算复杂度
三、基于神经网络的方式(word embedding):word2vec