Python 对文本先按词频统计,若相同按字典排序,后取TopN

Python Code:

def count_words(s, n):
    dic = {}
    words = s.split(" ")
    for word in words:
        dic[word] = words.count(word)
    wordslist = sorted(dic.items(), key=lambda kv: (-kv[1], kv[0]))[:n]
    return wordslist


def test_run():
    print count_words("cat bat mat cat bat cat baa", 3)
    print count_words("betty bought a bit of butter but the butter was bitter", 3)


if __name__ == '__main__':
    test_run()
以下是针对您的问题的Python程序,用于从文件中读全部文本进行预处理,分词并生成词频字典,并按词频大小排序,并输出Top20,并将统计结果写入文件。还包括一个可视化效果来呈现词频字典。 ```python import string import jieba from collections import defaultdict import matplotlib.pyplot as plt # 打开文件并读文本 with open('text.txt', 'r', encoding='utf-8') as f: text = f.read() # 将标点符号全部替换成空格 translator = str.maketrans(string.punctuation, ' ' * len(string.punctuation)) text = text.translate(translator) # 分词并统计每个两个字以上词语出现的次数 words_count = defaultdict(int) for word in jieba.cut(text): if len(word) >= 2: words_count[word] += 1 # 按词频大小进行排序,输出Top20,并将统计结果写入文件 with open('result.txt', 'w', encoding='utf-8') as f: f.write('Word\tCount\n') for word, count in sorted(words_count.items(), key=lambda x: x[1], reverse=True)[:20]: f.write('{}\t{}\n'.format(word, count)) print('{}\t{}'.format(word, count)) # 可视化词频字典 top_words = dict(sorted(words_count.items(), key=lambda x: x[1], reverse=True)[:20]) plt.bar(range(len(top_words)), list(top_words.values()), align='center') plt.xticks(range(len(top_words)), list(top_words.keys())) plt.show() ``` 请将代码保存为Python文件并将文件名更改为“word_frequency.py”。然后将文本文件命名为“text.txt”,并将其放在与Python文件相同的目录中。最后,运行代码,即可生成Top20词频并可视化结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值