统计文本中出现的单词个数频率

最新推荐文章于 2024-06-11 00:15:00 发布

转载最新推荐文章于 2024-06-11 00:15:00 发布 · 208 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/kenD/p/11093971.html

import re

with open('a.txt','r') as f:
    dict={} # 对应存放 单词 和 频率
    
    for line in f.readlines():
        word_list = re.findall('[a-zA-Z]+',line.lower())  # 把文本字符串变成列表  存放单词
  
        for word in word_list:
            word_count = len(re.findall(word,line.lower()))
            dict[word] = dict.get(word,0) + word_count
    
    
    # 对字典进行排序   排序完之后是一个列表
    ret = sorted(dict.items(), key=lambda x:x[1],reverse=True)  
    # x 就是获取的键值对 x[1] 表示以值为排序标准, x[0]表示以键为排序标准    
    
    for i in ret:
        print(i)