Gensim使用小解

最新推荐文章于 2025-07-16 11:38:36 发布

CaspianR

最新推荐文章于 2025-07-16 11:38:36 发布

阅读量1.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： nlp 文章标签： gensim nlp python

本文链接：https://blog.youkuaiyun.com/renjunsong0/article/details/77849049

本文介绍了Gensim库在话题建模和文本转换中的应用。讲解了如何处理停用词，使用corpora.Dictionary进行bag-of-words表示，以及利用Corpus Streaming优化内存使用。同时，讨论了Gensim的各种转换方法，如TF-IDF，LSI，LDA等，并强调了转换后的向量可以进行序列化和存储。最后，探讨了相似性查询，包括使用MatrixSimilarity和Similarity类进行大规模语料库的相似性计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Topic modelling for humans

   看着gensim这个标题都觉得霸气，从文本预处理，特征提出到主题聚类等，基本上包含了文本处理的所有功能。

Corpora and Vector Spaces

  语料与向量空间，这一节主要讲如何把文本从词变为bag-of-word。中文的话无非是中间加入了分词这一步骤。之前用过jieba,觉得效果还不错。

停用词git上有一个中文预料预处理

documents = ["做人要谦虚，但做事不要谦虚，毛遂自荐，让别人看到你，知道你的存在，知道你的能力，这样你才有机会，别人才会把重任交给你。",
             "天下没有好赚的钱，千万不要一口吃个胖子，先从小钱赚起吧",
             "不管从事什么行业，一定要相同行业或不同行业的人吸收新知识，而且要用请教的态度。",
             "犯错，就诚实地认错，并立刻改错，不要狡辩。",              
             ".要想成功，就要以失败为老师，在失败中汲取教训。",
             ".一定要守时！守时是对别人的尊重。",
             ".用真心诚意打动别人，让任何人为你做事。",
             "全力以赴迎接种种挑战，不要把困难看成是在整你。",
             "这一句没什么意思"]

f=open('stopwords.txt', encoding='gbk')
lines=f.readline()
stoplst=list(map(lambda x:x.strip('\n'), lines))
texts = [[word for word in jieba.lcut(document) if word not in stop lst] for document in documents]

但是发现停用词完全没有被过滤。后来发现，在stoplst中每个元素后面都有一个\n。
分词结果如下

[['做人','谦虚','做事','不要','谦虚','毛遂自荐','看到','知道','存在','知道','能力','机会','会','重任','交给'],
 ['天下', '没有', '好赚', '钱', '千万', '不要', '一口', '吃个', '胖子', '先', '从小', '钱', '赚起'],
 ['从事', '行业', '一定', '相同', '行业', '不同', '行业', '吸收', '新', '知识', '请教', '态度'],
 ['犯错', '诚实', '认错', '立刻', '改错', '不要', '狡辩'],
 ['.', '想', '成功', '失败', '老师', '失败', '中', '汲取', '教训'],
 ['.', '一定', '守时', '守时', '尊重'],
 ['.', '真心诚意', '打动', '任何人', '做事'],
 ['全力以赴', '迎接', '种种', '挑战', '不要', '困难', '看成', '整'],
 ['一句', '没什么', '意思']]

文中说了，文本的特征提取方法有很多，并且很重要，这里提到了一个garbage in, garbage out意思就是你算法再牛逼，你的输入有问题，输出还是不行，所以，怎么选取一个能够有效表述文本的特征非常重要。然后这里选择的最简单的bag-of-words,并且，为了方便表示，使用corpora.Dictionary 用id来