使用gensim框架及Word2Vec词向量模型获取相似词

这篇博客介绍了如何利用gensim框架和Word2Vec模型进行词向量的预处理、下载及加载。重点讲解了Word2Vec的CBOW和Skip-Gram模型以及Negative Sampling和Hierarchical Softmax的优化方法。此外,还提供了词向量模型的下载链接,并展示了如何使用KeyedVectors加载模型以获取特定词汇的相似词。

使用gensim框架及Word2Vec词向量模型获取相似词

预备知识

gensim框架

gensim是基于Python的一个框架,它不但将Python与Word2Vec做了整合,还提供了基于LSA、LDA、HDP的主体框架。

Word2Vec

Word2Vec属于一种神经网络架构的概率语言模型


两个重要模型
CBOW模型:CBOW模型是Word2Vec最重要的模型,输入是周围词的词向量,输出是当前词的词向量。即通过周围词来预测当前词。
Skip-Gram模型:它与CBOW正相反,它是通过当前词来预测周围词。


优化方式
Negative Sample(负采样):在训练神经网络时,每接受一个训练样本后,通过调整所有神经单元的权重参数,来使神经网络的预测更加准确。negative sampling 每次让一个训练样本仅仅更新一小部分的权重参数,从而降低梯度下降过程中的计算量。

Hierarchical Softmax:传统的词向量模型,一般具有输入层(词向量)、隐藏层和输出层(softmax)。最耗时的就是softmax层,它的计算量很大。word2vec对这个模型做了改进,首先,对于从输入层到隐藏层的映射,没有采取神经网络的线性变换加激活函数的方法,而是采用简单的对所有输入词向量求和并取平均的方法。第二个改进就是从隐藏层到输出的softmax层这里的计算量个改进。为了避免要计算所有词的softmax概率,word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射。


评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dream丶Killer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值