自然语言处理爬过的坑:基于爬虫抓取的语料,使用gensim建设dictionary、corpus、tfidf_model并保存成文件

本文介绍如何利用Python的gensim库,基于爬虫获取的语料,建立dictionary、corpus和tf-idf模型,并将这些模型保存为文件。通过这个过程,可以有效地存储和复用自然语言处理的预处理结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


                # 生成字典和向量语料
                dictionary = corpora.Dictionary([corpora_documents])
                #print(dictionary)
                # print 'dfs:', dictionary.dfs  # 字典词频,{单词id,在多少文档中出现}
                print 'num_docs:', dictionary.num_docs  # 文档数目
                print 'num_pos:', dictionary.num_pos  # 所有词的个数
                # word_id_dict = dictionary.token2id  # {词:id}
                # print 'word_id_dict:'
                # print len(word_id_dict)
                # for k in word_id_dict.keys():
                # kuozhan(corpora_documents)
                # big_shuzu.append(corpora_documents)
                #print big_shuzu
                #dictionary.add_documents
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值