自然语言处理爬过的坑：基于爬虫抓取的语料，使用gensim建设dictionary、corpus、tfidf_model并保存成文件

gensim构建自然语言处理模型并保存

最新推荐文章于 2025-10-12 10:45:56 发布

原创

最新推荐文章于 2025-10-12 10:45:56 发布 · 5.3k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #python

本文介绍如何利用Python的gensim库，基于爬虫获取的语料，建立dictionary、corpus和tf-idf模型，并将这些模型保存为文件。通过这个过程，可以有效地存储和复用自然语言处理的预处理结果。

                # 生成字典和向量语料
                dictionary = corpora.Dictionary([corpora_documents])
                #print(dictionary)
                # print 'dfs:', dictionary.dfs  # 字典词频，{单词id，在多少文档中出现}
                print 'num_docs:', dictionary.num_docs  # 文档数目
                print 'num_pos:', dictionary.num_pos  # 所有词的个数
                # word_id_dict = dictionary.token2id  # {词:id}
                # print 'word_id_dict:'
                # print len(word_id_dict)
                # for k in word_id_dict.keys():
                # kuozhan(corpora_documents)
                # big_shuzu.append(corpora_documents)
                #print big_shuzu
                #dictionary.add_documents(big_shuzu)  # 词典扩展
                print 'num_docs:', diction