统计文本中出现的单词个数频率

import re

with open('a.txt','r') as f:
    dict={} # 对应存放 单词 和 频率
    
    for line in f.readlines():
        word_list = re.findall('[a-zA-Z]+',line.lower())  # 把文本字符串变成列表  存放单词
  
        for word in word_list:
            word_count = len(re.findall(word,line.lower()))
            dict[word] = dict.get(word,0) + word_count
    
    
    # 对字典进行排序   排序完之后是一个列表
    ret = sorted(dict.items(), key=lambda x:x[1],reverse=True)  
    # x 就是获取的键值对 x[1] 表示以值为排序标准, x[0]表示以键为排序标准    
    
    for i in ret:
        print(i)

 

转载于:https://www.cnblogs.com/kenD/p/11093971.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值