统计文档中前5个高频词个数并输出

最新推荐文章于 2025-03-23 10:25:47 发布

转载最新推荐文章于 2025-03-23 10:25:47 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/huigebj/p/11433878.html

文章标签：

#python #数据库

本文介绍了一个使用Python的jieba库进行中文文本分词，并统计词频的例子。通过将一段关于中国的描述性文本进行分词处理，然后利用字典统计每个词出现的次数，最后将词频结果进行排序并展示前五高频词。

import jieba

ls="中国是一个伟大的国家，是一个好的国家"
print('原始文档为：',ls)
counts={} # 定义统计字典
words=jieba.lcut(ls)
print('分好的词组为：',words)

for word in words:
    counts[word]=counts.get(word,0)+1
print('生成的字典为：',counts)
print('字典的元素为：',counts.items())
#字典元组转换为列表
items=list(counts.items())
print('counts的元素生成新的列表：',items)
#列表按第2个值进行排序-降序reverse=True，默认升序 
items.sort(key=lambda x:x[1],reverse=True)

print('按元组中第二维值排序后的列表为：',items)
#转出列表前5个
for i in range(5):
    word,count=items[i]
    print("{0:<10}---{1:>5}".format(word,count))

#------------

for word in words:
    if len(word) ==1:   #增加一个判断是否为词组
        continue
    else:
        counts[word] = counts.get(word,0)+1

转载于:https://www.cnblogs.com/huigebj/p/11433878.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

adasdsa213231

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python快速统计文件中高频词

weixin_52031478的博客

10-29

1万+

思路： 1.通过jieba库获取所有词语列表； 2.计算列表里出现词语及其对应的词频，存储在字典中； 3.对字典里的词语按照频次进行排列； 4.输出频次前十的词语及其频次； jieba库的安装需要cmd进入命令提示符窗口，输入pip install jieba安装即可源代码如下 import jieba # 调用jieba库 f_name = '斗破苍穹.txt' # 文件地址 with open(f_name, encoding='utf-8')as a:

对txt文件的高频词汇统计

假的NPC的博客

07-31

1528

import jieba as j #jieba库（分词） i=open("31878.txt","r",encoding="utf-8") #打开一份txt文件，读取，关闭文件 txt=i.read() i.close() words=j.lcut(txt) #进行对读取的文件进行分词操作 cou...

参与评论您还未登录，请先登录后发表或查看评论

高频词统计

04-30

个人开发的高频词统计小工具，有待完善。仅支持文本文件或xls文件处理。其他文件可能会报错，直接退出。

批量统计文档指定高频词

weixin_60526150的博客

02-12

645

统计2012-2016年间各地级市政府的工作报告中在政治、经济、文化等领域的已指定高频词汇（etc.指定经济类的词汇有发展、经济建设、GDP等）如果是txt格式文档，可以直接使用，如果是docx格式文档，可以查看我的上一篇文章，有docx批量转txt的代码，转换后就可以直接使用下面的代码。其中economy文件打开后如下，地级市分年份（不分月份了，没有删掉）

现代软件工程个人作业——词频统计（字符数、行数、单词数、高频单词和词组）...

weixin_30394669的博客

03-29

1008

现代软件工程课的第一次个人作业博主做的相当差劲，让我清楚地意识到自己与他人的差距。通过这篇博客博主将展示自己是如何走上事倍功半的歧路，认真分析错误原因，希望大家不要重蹈我的覆辙。首先让我们来看一下作业要求：详细要求在邓宏平老师的博客：第一次个人作业——词频统计这次词频统计的主要功能有： 1.统计文件的字符数（只需要统计Ascii码，汉字...

python jieba分词并统计词频后输出结果到Excel和txt文档方法

09-20

综合上述知识点，文章中提供的Python脚本能够将指定文本文件中的内容使用jieba进行分词，并统计出每个词的出现频次，再将这些频次数据按照从高到低的顺序输出到txt文本文件和Excel表格文件中。这对于数据分析、文本...

python如何分析高频词_利用Python统计演讲高频词

weixin_32183427的博客

02-10

4260

1月9日被誉为中国最牛的产品经理张小龙做了微信的年度演讲[1]，引爆朋友圈。1月10日采铜写了篇《张小龙四个小时的演讲没有讲什么?》[2]，又引爆朋友圈。在现在几乎所有人张口就谈“认知升级”、“底层逻辑”等词的时代，这篇文章用数据阐述了张小龙在演讲想表达什么。我觉得特别好玩的是，有很多大家都在说的词，耳朵里听出老茧的词，他一个字都没提。为什么呢？也许他的词典里根本没有这样的词，也许有但是他觉得根本...

统计文章中单词频次并输出最高频的15个词汇

从描述“统计文章中单词的个数，并且输出最多的15个单词”可以看出，该任务包含两个关键步骤：一是对整篇文章进行单词级别的分词与计数，二是对统计结果进行排序并截取前15个高频词。这个过程虽然看似简单，但背后...

使用jieba进行高频词提取

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

05-09

893

使用jieba进行高频词提取

如何统计文章中的高频词

GitChat

01-11

6830

分析用户的留言文本信息，提取用户所关注的信息，进行情感分析。该任务的重点就是提取用户留言的高频词并且过滤掉停用词。在本场 Chat 中，会讲到如下内容：数据收集：获取用户的留言数据文本分词：读取用户留言内容，使用 jieba 进行文本分词，根据具体任务，添加自定义词库、停用词。词频统计：使用 collections 里边的 defaultdict 进行统计保存结果：按照词频进行排序，写...

用于统计txt文档中出现了几个不同的汉字和每个汉字出现频率的Qt小程序

09-14

新手写的一个Qt小程序，可能有点小乱，高手勿喷，需要的可以下去看看，没有积分的可以看我的博文，我的博文上面有百度云的链接。

统计一段文章的单词频率，取出频率最高的5个单词和个数(python)

weixin_30443075的博客

11-11

2402

练习题：统计一段英语文章的单词频率，取出频率最高的5个单词和个数(用python实现) 先全部转为小写再判定 lower() 怎么判定单词? 1 不是字母的特殊字符作为分隔符分割字符串（避免特殊字符的处理不便，全部替换成'-')2 正则分割 3 遍历字符串，取每个word4 正则匹配怎么统计个数？将wordlist的word和word的个数放入dict，排序 ''' dinghan...

python简单代码找到excel文本高频词，无预设关键词直接统计文本词汇

最新发布

2302_76394537的博客

03-23

669

数据内容为一列有多个单元格，每个单元格有一行文本，文本中包含各种词汇且无空格，想统计出所有单元格文本内容的高频词。我想做的是找到暴雨或者什么灾害数据里的高频词，然后知道暴雨可能有好几种表述，获取这几种表述去做其他事。找到EXCEL文本的高频词，通过COUNT和power query无法实现的，没有预设的关键词。1.原始数据准备：保证列的格式是文本，去掉空白行。#记录自己在学习中遇到的小问题和总结#3.看看我的运行结果。

python词频统计（re和jieba模块的使用），获取词频TOP50的词组

wj的博客

03-15

1440

参考 https://www.jianshu.com/p/28718ba04bc9?from=groupmessage https://blog.youkuaiyun.com/qq_32392597/article/details/96147620 爬虫内容对应于代码 # -*- coding: utf-8 -*- # import requests import re from bs4 import BeautifulSoup from urllib.request import urlopen impor

【百度测试工程师】英文句子中输出词频最高的单词及次数

qq_24889005的博客

10-12

638

题目输入一句英文（小于1000字符），输出词频最高的单词（不区分单词大小写，且词频同等情况下单词由小到大排序）及其出现的次数。示例：输入： Little Five Monkeys Jumping on the Bed. It was bedtime. So five little monkeys took a bath. Five little Monkeys put on their pajamas. 输出： Five 3 # 百度测试 # 输入：Little Five Monkeys J

统计本段话的高频词汇——报错：KeyError

qq_52565672的博客

12-08

1170

编写程序，实现用户随机输入一段话，统计本段话的高频词汇。

查找文档的关键词及出现的次数，用出现频率最高的关键词，做成词云图展示

weixin_40649680的博客

07-05

2750

查找文档的关键词及出现的次数，用出现频率最高的关键词，做成词云图展示

文本分词并统计出现次数最高的几个词Python

s0302017的博客

12-10

5155

一、问题描述在做文本数据分析时，经常遇到需要做词频分析，而做词频分析又经常需要统计出现次数最高的几个词，下面代码给出了基于Python的文本数据统计，基本流程为：首先读取一个文本文件，之后进行分词，再去除停用词，最后统计出现次数最多的N个词。二、Python代码 import jieba from collections import Counter #################...

如何使用 Wordfreq 进行多语言文本词频统计

qq_35485206的博客

09-23

2279

wordfreq 是一个用于统计文本中词频的 Python 库。它提供了高效且方便的方法来获取词语在不同语言中的频率分布，适用于自然语言处理、文本分析等领域。功能：多语言支持：支持多种语言，包括英语、中文、法语、德语等。词频统计：可以轻松获得某个词在指定语言中的频率排名。支持自定义词表：可以通过自定义词表来进行词频统计。词...