Python 中文文件统计词频 + 中文词云

Sound_of_ Silence

于 2019-06-20 16:34:13 发布

阅读量8.6k

点赞数 11

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44521703/article/details/93058003

版权

本文介绍了如何使用Python进行中文文件的词频统计，展示了一个例子，统计了《三国演义》中的人物出场次数，结果显示曹操、孔明和刘备出现最频繁。此外，还提到了如何解决在生成词云图时可能出现的乱码问题，并提供了相关解决方案的链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 词频统计：

import jieba
txt = open("threekingdoms3.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

结果是：

曹操 946
孔明 737
将军 622
玄德 585
却说 534
关公 509
荆州 413
二人 410
丞相 405
玄德曰 390
不可 387
孔明曰 374
张飞 358
如此 320
不能 318

进一步改进，我想只知道人物出场统计，代码如下：

impo

最低0.47元/天解锁文章

Sound_of_ Silence

博客等级

码龄6年

108
原创

162
点赞

628
收藏

142
粉丝

关注

私信

热门文章

分类专栏

笔记
C4D 2篇
Scrapy 3篇
Python 92篇
Cinema4D 3篇
爬虫 33篇
游戏 7篇
request 16篇
基础 9篇
matplotlib 9篇

展开全部收起

上一篇：: Python 英文文件统计词频进阶版

下一篇：: Python-123 试题天龙八部

最新评论

Python爬取网页并存储为pdf
Ahjol要加油: url可以换成其他的吗
Python challeng 第17关挑战 eat？
AFATAR: t = bz2.decompress(s) 这一段代码我运行了报错： 5 s=unquote_to_bytes(cookies) 6 # t=bytes(s,'utf-8') ----> 7 q=bz2.decompress(s) File d:\python3\lib\bz2.py:350, in decompress(data) 348 decomp = BZ2Decompressor() 349 try: --> 350 res = decomp.decompress(data) 351 except OSError: 352 if results: OSError: Invalid data stream 您知道怎么解决么？
Python Matplotlib 柱状图加数值
LiLi_code: [code=python] # 解决中文显示问题 plt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus'] = False [/code]
matplotlib之堆积柱状图及百分比柱状图
树莓霉霉: 请问如果把salary作为被堆积的，以人名为x轴，算每个人三个薪水的和，怎么算呀，表格还是这个表格，就是把第一行作为y轴，第一列为x轴⊙_⊙
matplotlib之堆积柱状图及百分比柱状图
it's time to code: 绿色柱子加文字的时候，纵坐标位置应该是 y3 = 1 - percentage3/2 ；这样就可以直接加上了。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。