统计文本中出现的数量最高的前5个单词

最新推荐文章于 2024-09-17 16:45:05 发布

赵清河

最新推荐文章于 2024-09-17 16:45:05 发布

阅读量1.7k

点赞数 3

分类专栏：处理数据文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zz_zss/article/details/122838428

版权

文件处理文本分析单词计数排序 Python编程

关键词由优快云通过智能技术生成

处理数据专栏收录该内容

3 篇文章

订阅专栏

def read_file():
with open(‘C:/Users/84785/PycharmProjects/pythonProject/3.txt’, ‘r’, encoding=‘utf-8’) as f:
word = [] # 空列表用来存储文本中的单词
# readlins为分行读取文本，且返回的是一个列表，每行的数据作为列表中的一个元素：
for word_str in f.readlines():
# 去除原文中的逗号双引号
word_str = word_str.replace(’,’, ‘’).replace(’"’, ‘’)
# strip去除每行字符串数据两边的空白字符
word_str = word_str.strip()
# 对单行字符串通过空格进行分割，返回一个列表
word_list = word_str.split(’ ')
# 将分割后的列表内容，添加到word空列表中
word.extend(word_list)
# 定义一个新字典存放单词以及数量
dic = {}
# 循环列表中的单词统计数量
for i in word:
count = word.count(i)
# 把数量设为字典的value值
dic[i] = count
# 使用sorted()方法对其排序sorted(iterable, key=None, reverse=False) iterable为可迭代的对象，使用items(
# )方法以列表返回可遍历的（键，值）元组数据，key为比较的元素
dic1 = sorted(dic.items(), key=lambda d: d[1], reverse=True)
print(dic1)
for i in range(5):
print(dic1[i])

read_file()
在这里插入图片描述

博客等级

码龄5年

31
原创

28
点赞

115
收藏

12
粉丝

关注

私信

热门文章

分类专栏

最新评论

解决多线程中资源竞争
普通网友: 码住，求博主联系方式，我的微信cto51shequ，在线等回复
使用爬虫的scrapy框架爬取百度贴吧某个贴吧每个帖子的数据
赵清河: xpath，你可能写错了，没怎么用过的话先下载一个chrome的插件 xpath-helper去获取正确的xpath，或者获取的书库为空的话，可能是ip被封了
使用爬虫的scrapy框架爬取百度贴吧某个贴吧每个帖子的数据
xingTTxing: 百度贴吧做了防爬机制，取得的response对象大部分内容被注释了，你是怎么用xpath提取到的
使用pandas处理数据
赵清河: 上述方法使用创建全为0的数组然后进行变1操作，可用来处理比如电影分类问题，每一个电影有多个分类这种情况，因此需要这种统计方法。当我们需要统计的数目索引很清晰明确且每一个数据仅属于一类时可以直接使用groupby方法统计# 当我们需要的信息很明确而且仅一列时可以直接使用函数groupby对我们想要的一列进行统计数目 counts = df.groupby(by="country").count()["title"] print(counts)
关于python中pip安装各种包失败的解决方法
赵清河回复張沖: 一般pip就可以解决大部分安装包，pip无法解决的用conda 就基本可以解决，我是pip安装一直出错就用了清华园总有一种方法可以成功的吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。