gensim基本使用+文本相似度分析

最新推荐文章于 2025-10-14 09:51:16 发布

原创

最新推荐文章于 2025-10-14 09:51:16 发布 · 2.2w 阅读

167 ·

CC 4.0 BY-SA版权

文章标签：

#python #jieba #gensim

gensim基本使用

gensim 是一个通过衡量词组（或更高级结构，如整句或文档）模式来挖掘文档语义结构的工具
三大核心概念：文集（语料）–>向量–>模型

文集：
将原始的文档处理后生成语料库

from gensim import corpora
import jieba
documents = ['工业互联网平台的核心技术是什么',
            '工业现场生产过程优化场景有哪些']
def word_cut(doc):
    seg = [jieba.lcut(w) for w in doc]
    return seg

texts= word_cut(documents)

##为语料库中出现的所有单词分配了一个唯一的整数id
dictionary = corpora.Dictionary(texts)
dictionary.token2id

{'互联网': 0,
 '什么': 1,
 '优化': 7,
 '哪些': 8,
 '场景': 9,
 '工业': 2,
 '平台': 3,
 '是': 4,
 '有': 10,
 '核心技术': 5,
 '现场': 11,
 '生产': 12,
 '的': 6,
 '过程': 13}

向量
把文档表示成向量

##该函数doc2bow()只计算每个不同单词的出现次数，将单词转换为整数单词id，并将结果作为稀疏向量返回
bow_corpus = [dictionary.doc2bow(text) for text in texts]
bow_corpus

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)],
 [(2, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1)]]

最低0.47元/天解锁文章

10 条评论

lovehotff 2020.09.24
你好，我参照代码自己做了一些样例运行，但是结构相似度都是0，请教一下是什么原因？谢谢
- 英俊的老海盗回复RRichaZ 2021.12.21
  请问怎么解决的
- RRichaZ回复lovehotff 2021.08.26
  请问解决了吗我也遇到了
- qq_41884196回复woniuhuihui 2021.05.28
  查看了下官方文档发现所需要的数据类型是list 大概类型是这样的{[元素1],[元素2],[元素3]…..}文档转换成这种形式就可以了
- woniuhuihui回复qq_41884196 2021.05.24
  您好，请教一下如何解决的
- qq_41884196回复Eric990309 2021.05.23
  之前我也是一样的，后来解决了。
- qq_41884196回复Eric990309 2021.04.28
  解决了老哥我这里也是这样问题
- Eric990309回复lovehotff 2021.02.23
  我也是同样的结果，请问有您有解决办法吗~