中文词频统计

该博客围绕中文长篇小说文本分析作业展开,包括从文件读取待分析文本,安装jieba,更新词库、生成词频统计、排序、排除停用词并输出词频最大TOP20保存到文件,最后生成词云,还给出了作业要求和参考链接。

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773

一.下载一篇中文长篇小说并从文件中读取待分析文本

f = open('xiaoshuo.txt', 'r', encoding='utf-8')
# 通过文件读取字符串 str
str = f.read()
f.close()
print(str)

二.安装jieba

三.

(1)更新词库,加入所分析对象的专业词汇。

(2)生成词频统计

(3)排序

(4)排除语法型词汇,代词、冠词、连词等停用词。

(5)输出词频最大TOP20,把结果存放到文件里

import jieba
f=open('白夜行.txt','r',encoding='utf-8')
lines=f.read()
f.close()

sep = ',。?!;:“”‘’-——<_/>'
for en in sep:
    lines=lines.replace(en, '')

lines = list(jieba.cut_for_search(lines)) strSet = set(lines) #print(len(strSet), strSet)  strDict = dict() for word in strSet: strDict[word] = lines.count(word) #print(len(strDict), strDict)  wcList = list(strDict.items()) #print(wcList) wcList.sort(key=lambda x: x[1], reverse=True) #print(wcList) for i in range(20): print(wcList[i])

四.生成词云

转载于:https://www.cnblogs.com/Zhms/p/10555301.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值