PYTHON3.6对中文文本分词、去停用词以及词频统计

最新推荐文章于 2025-04-21 11:50:27 发布

WhiteRiver白河

最新推荐文章于 2025-04-21 11:50:27 发布

阅读量3.7w

点赞数 31

分类专栏： Python 自然语言处理文章标签： python 自然语言处理

本文链接：https://blog.youkuaiyun.com/qq_27882113/article/details/78126952

版权

一开始设想在相似度计算中针对于《三生三世十里桃花》和《桃花债》之间的相似度计算，但是中途突然有人工智能的阅读报告需要写。

突然脑洞想做个词频统计看看《新一代人工智能规划》中的词频什么的。

用的工具是PYTHON里面的中文JIEBA分词工具。

中文文本分词中先参考了官方给出的示例，官方给出的示例主要是对一条文本进行全分词和精确分词。

import jieba
seg_list = jieba.cut("我来到北京清华大学,感到非常开心", cut_all=True)
print("Full Mode:"+"/".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学，感到非常开心", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("我来到北京清华大学，感到非常开心")
print("/ ".join(seg_list))  # 默认精确模式

seg_list = jieba.cut_for_search("烟花从正面看，还是从侧面看呢？")   # 搜索引擎模式
print("/ ".join(seg_list))

得到的结果如下：