一开始设想在相似度计算中针对于《三生三世十里桃花》和《桃花债》之间的相似度计算,但是中途突然有人工智能的阅读报告需要写。
突然脑洞想做个词频统计看看《新一代人工智能规划》中的词频什么的。
用的工具是PYTHON里面的中文JIEBA分词工具。
中文文本分词中先参考了官方给出的示例,官方给出的示例主要是对一条文本进行全分词和精确分词。
import jieba
seg_list = jieba.cut("我来到北京清华大学,感到非常开心", cut_all=True)
print("Full Mode:"+"/".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学,感到非常开心", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("我来到北京清华大学,感到非常开心")
print("/ ".join(seg_list)) # 默认精确模式
seg_list = jieba.cut_for_search("烟花从正面看,还是从侧面看呢?") # 搜索引擎模式
print("/ ".join(seg_list))
得到的结果如下: