Python利用结巴模块统计《水浒传》词频

本文详细介绍了结巴分词的基本实现原理,包括基于Trie树结构的词图扫描,动态规划查找最大概率路径,以及对未登录词采用的HMM模型与Viterbi算法。并通过《水浒传》的词频统计实例,展示了结巴分词在实际文本处理中的应用。
部署运行你感兴趣的模型镜像

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:

基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 
下面利用结巴分词队水浒传的词频进行了统计

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

使用Python进行《水浒传》的词频统计是一种常见的文本分析方法。可以通过分词工具jieba对文本进行分词处理,然后统计每个词语出现的频率。 在给定的代码中,使用了jieba库对《水浒传》文本进行了分词处理,然后使用字典counts记录词语出现的频率。在统计过程中,排除了一些无效词语,比如“两个”、“一个”、“只见”等,同时对于相同对象的不同称谓进行了同一化处理。 最后,按照词语的频率进行排序,并输出前十个高频词汇。 因此,使用Python进行《水浒传词频统计的代码如下所示: ```python import jieba excludes = {"两个","一个","只见","如何","那里","哥哥","说道","军马","头领","众人","这里","兄弟","梁山泊","出来","小人","今日","这个","先锋","三个","因此","人马","问道","起来","便是","妇人","好汉","不是","不知","不曾","只是","如此","次日","我们","不得","如今","看时","不敢","来到","且说","一面","只得","山寨","原来","将军","却是"} txt = open("水浒传.txt","r",encoding='gb18030', errors='ignore').read() words = jieba.lcut(txt) counts = {} for word in words: if len(word) == 1: continue elif word == "宋江道" or word == "宋江": rword = "宋江" else: rword = word counts[rword = counts.get(rword, 0) + 1 for word in excludes: del(counts[word]) items = list(counts.items()) items.sort(key=lambda x:x<span class="em">1</span><span class="em">2</span>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值