使用gensim框架及Word2Vec词向量模型获取相似词

最新推荐文章于 2024-12-13 19:59:32 发布

原创

最新推荐文章于 2024-12-13 19:59:32 发布 · 2.9k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #机器学习 #python #人工智能

这篇博客介绍了如何利用gensim框架和Word2Vec模型进行词向量的预处理、下载及加载。重点讲解了Word2Vec的CBOW和Skip-Gram模型以及Negative Sampling和Hierarchical Softmax的优化方法。此外，还提供了词向量模型的下载链接，并展示了如何使用KeyedVectors加载模型以获取特定词汇的相似词。

使用gensim框架及Word2Vec词向量模型获取相似词

预备知识

gensim框架

gensim是基于Python的一个框架，它不但将Python与Word2Vec做了整合，还提供了基于LSA、LDA、HDP的主体框架。

Word2Vec

Word2Vec属于一种神经网络架构的概率语言模型

两个重要模型
CBOW模型：CBOW模型是Word2Vec最重要的模型,输入是周围词的词向量，输出是当前词的词向量。即通过周围词来预测当前词。
Skip-Gram模型：它与CBOW正相反，它是通过当前词来预测周围词。

优化方式
Negative Sample（负采样）：在训练神经网络时，每接受一个训练样本后，通过调整所有神经单元的权重参数，来使神经网络的预测更加准确。negative sampling 每次让一个训练样本仅仅更新一小部分的权重参数，从而降低梯度下降过程中的计算量。

Hierarchical Softmax：传统的词向量模型，一般具有输入层（词向量）、隐藏层和输出层（softmax）。最耗时的就是softmax层，它的计算量很大。word2vec对这个模型做了改进，首先，对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入词向量求和并取平均的方法。第二个改进就是从隐藏层到输出的softmax层这里的计算量个改进。为了避免要计算所有词的softmax概率，word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射。