词向量工具——word2vec

最新推荐文章于 2024-08-13 08:24:25 发布

原创

最新推荐文章于 2024-08-13 08:24:25 发布 · 3.4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#词向量 #NLP

# 词向量

> 词向量(word embedding)是为了让计算机能够处理的一种词的表示。
自然语言处理（NLP）相关任务中，要将自然语言交给机器学习中的算法来处理，通常需要首先将语言数学化，因为机器不是人，机器只认数学符号。向量是人把自然界的东西抽象出来交给机器处理的东西，基本上可以说向量是人对机器输入的主要方式。
词向量就是用来将语言中的词进行数学化的一种方式，顾名思义，词向量就是把一个词表示成一个向量。

----------
词向量表示的方式主要有两种：

- **One-Hot Representation**

> NLP相关任务中最常见的第一步是创建一个词表库并把每个词顺序编号。这实际就是词表示方法中的One-hot Representation，这种方法把每个词顺序编号，每个词就是一个很长的向量，向量的维度等于词表大小，只有对应位置上的数字为1，其他都为0。当然在实际应用中，一般采用稀疏编码存储，主要采用词的编号。举个例子：
“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]
“麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]
这种 One-hotRepresentation 如果采用稀疏方式存储，会非常简洁：也就是给每个词分配一个数字 ID。比如刚才的例子中，话筒记为 3，麦克记为 8（假设从 0 开始记）。如果要编程实现的话，用 Hash 表给每个词分配一个编号就可以了。这么简洁的表示方法配合上最大熵、SVM、CRF 等等算法已经很好地完成了 NLP 领域的各种主流任务。这种表示方法一个最大的问题是无法捕捉词与词之间的相似度，就算是近义词也无法从词向量中看出任何关系。此外这种表示方法还容易发生维数灾难，尤其是在Deep Learning相关的一些应用中。

----------

- **Distribute