Word2Vec、Doc2Vec与Gensim:多种词嵌入方法解析
1. 词嵌入概述与Gensim的作用
如今,我们已经具备了对单词和文档进行向量表示(且带有语义理解)的能力。Word2Vec和Doc2Vec是最受欢迎的向量算法,但并非唯一选择。实际上,有大量的词嵌入方法可供我们在向量任务中选择,不过这些方法的原始实现分散在不同的语言、托管网站、二进制文件和代码库中。幸运的是,Gensim为我们提供了便利,它对大多数(甚至是全部)其他词嵌入方法都有实现或有详细文档的包装器。
Gensim有针对WordRank、VarEmbed和FastText的包装器,同时对Poincare Embeddings和FastText有原生实现。此外,它还有一个简洁的脚本用于使用GloVe嵌入,这在比较不同类型的词嵌入时非常有用。
Gensim的KeyedVectors类为我们使用所有词嵌入提供了一个基础类。在完成模型训练后,建议运行以下代码:
word_vectors = model.wv
之后,我们可以使用 word_vectors 进行各种任务,如查找最相似的单词、最不相似的单词,以及进行词嵌入测试。查看 KeyedVectors.py 文件的代码可以了解其底层实现。
2. 不同词嵌入方法介绍
2.1 GloVe
GloVe是一种词向量表示方法,它基于语料库中聚合的全局词 - 词共现统计信息进行训练。和Word2Vec一样,它利用上下文来理解和创建词
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



