很久以前用过gensim这种python版本的NLP,机器学习工具,现在忘差不多了,今天又捡起来
genSim处理中文过程中,第一步先进行分词,采用的python的结巴分词,分词完毕后,针对特定语料集,形成自己的词典,gensim工具要求的词典格式如下
103385
0 内部电源
37
1 运输汽车
2
2 傅里叶级数
2
3 盘式 145
4 柴油发动机
177
……
第一行为语料集规模
第二行开始分三列,分别是词ID,词,文档频率
#coding=utf-8
from gensim import corpora,models,similarities
mydic=corpora.Dictionary.load_from_text('G:/renWork/legalData/gensi.dic')