中文词频统计

中文长篇小说分词与词频统计

最新推荐文章于 2023-10-25 22:16:54 发布

转载最新推荐文章于 2023-10-25 22:16:54 发布 · 80 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/qq724852210/p/7610279.html

中文分词

下载一中文长篇小说，并转换成UTF-8编码。
使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。
排除一些无意义词、合并同一词。

对词频统计结果做简单的解读。

import jieba

txt = open('123.txt','r',encoding='utf-8').read()
words=list(jieba.cut(txt))

exp={'，'}

keys=set(words)-exp

dic={}
for w in keys:
    if len(w)>1:
        dic[w]=words.count(w)

wc=list(dic.items())
wc.sort(key=lambda x:x[1],reverse=True)

for i in range(20):
    print(wc[i])

转载于:https://www.cnblogs.com/qq724852210/p/7610279.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30756499

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

基于Hadoop 2.7.7 的中文词频统计工具（JavaWeb）.zip

03-13

本文将深入探讨基于Hadoop 2.7.7的中文词频统计工具，这是一个JavaWeb应用程序，用于处理大规模文本数据并计算其中每个中文词汇出现的频率。这个项目可以帮助我们了解如何在分布式环境下有效地处理和分析中文文本。 ...

中文词频统计_lostxv3_中文词频统计_

10-01

【标题】"中文词频统计_lostxv3_中文词频统计_" 涉及的主要技术领域是自然语言处理（NLP），特别是文本分析和统计学。在这个项目中，我们关注的是对中文文本进行词频统计，这通常用于理解文本的主题、情感倾向或者...

参与评论您还未登录，请先登录后发表或查看评论

Python中文分析：《射雕英雄传》统计人物出场次数、生成词云图片文件、根据人物关系做社交关系网络和其他文本分析

刘墨苏的技术博客

06-29

4238

python中文分析作业，将对《射雕英雄传》进行中文分析，统计人物出场次数、生成词云图片文件、根据人物关系做社交关系网络和其他文本分析等。1.中文分词，统计人物出场次数，保存到词频文件中，文件内容为出场次数最多的前 300 人（可大于 300）的姓名和次数 2.利用分析结果生成词云图片文性，要求：使用黑体字、背景色为白色、宽度 1000 像素、高度 860 像素输出词云图片：3.利用分析结果生成另一种字体词云图片文性输出：4.利用形状，生成特定形状词云图片文性输出：5.根据文中人物关系，做社交关系网络

中文词频统计及词云制作

weixin_30252155的博客

09-26

177

1.中软国际华南区技术总监曾老师还会来上两次课，同学们希望曾老师讲些什么内容？我希望老师能讲下他自己做项目的经验与需要注意的地方，或者说说我们以后再这方面的发展的可以先从哪方面开始做起。 2.中文分词下载一中文长篇小说，并转换成UTF-8编码。使用jieba库，进行中文词频统计，输出TOP20的词及出现次数。 import jieba txt=open('追风筝的女孩.t...

中文词频统计与词云生成

weixin_30872337的博客

03-25

660

作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说。选取的小说为《射雕英雄传》 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba jieba.lcut(text...

Python也可以这样玩！

lsxxx2011的专栏

04-14

230

对《还珠格格》进行词频统计对《还珠格格》的词频统计生成词云标签将《2016年中国政府工作报告》变成词云是这样的然后是《小时代》以小燕子照片为词云背景对《射雕英雄传》进行词...

统计文本词频的几种方法（Python）