自然语言处理中的词向量表示与规则技术
1. 文档与词的向量表示
在自然语言处理里,我们可以把电影评论语料库表示成一个矩阵,每篇文档都是一个N维向量,这里的N是我们要使用的最大词汇量。以TF - IDF向量为例,不同文档中相同单词的TF - IDF值存在明显差异,这在后续的分类处理中会发挥作用。
此前我们主要关注文档的表示,而词本身的表示也很关键。文档向量中的词只是代表其频率的数字,没有包含词本身的含义信息。词的含义会影响文档间的相似度,因此我们需要对词的含义进行表示,这在NLP文献中常被称为词嵌入。
2. Word2Vec
Word2Vec是Google在2013年发布的用于将词表示为向量的流行库。其基本思想是语料库中的每个词都由一个基于该词出现的所有上下文(附近的词)计算得到的单一向量表示。其背后的直觉是,含义相似的词会出现在相似的上下文中,正如语言学家J. R. Firth所说:“观其伴,知其词”。
2.1 独热编码
为了更好地理解Word2Vec,我们先从独热编码开始。独热编码中,词汇表中的每个词由一个向量表示,该向量在特定位置为1,其余位置为0。向量的长度等于词汇表的大小。独热编码的第一步是整数编码,即给语料库中的每个词分配一个特定的整数。以下是使用scikit - learn库进行整数编码和独热编码的代码:
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



