01 | Python语言: python.从一个文本文件中选出使用频率最多的若干个单词 |
02 | #coding:utf-8 |
03 | # ------------------------------------------------------------ |
04 | # 简介 : 从一个文件中选出使用频率最多的10个单词 |
05 | # 请自行准备一个 test.txt 文档放在与本脚本相同目录 |
06 | # 更新 : 2008年6月27日 |
07 | # ------------------------------------------------------------ |
08 |
09 | from time import time |
10 | from operator import itemgetter |
11 |
12 | def test(): |
13 | # 取 10 个,有需要可以修改, 及定义读取的文件 test.txt |
14 | iList = 10 |
15 | strFileName = 'test.txt' |
16 |
17 | count = {} |
18 | for word in open(strFileName).read().split(): |
19 | if count.has_key(word): |
20 | count[word] = count[word] + 1 |
21 | else: |
22 | count[word] = 1 |
23 | print sorted(count.iteritems( ), key=itemgetter(1), reverse=True)[0:iList] |
24 |
25 | # 调用 |
26 | if __name__ == '__main__': |
27 | t1 = time() |
28 | test() |
29 | print time()-t1 |
文章来源:
学什么网
本文介绍了一个使用Python从文本文件中统计单词出现频率的方法,并展示了如何找出使用频率最高的10个单词。该脚本适用于对大量文本数据进行快速分析。
2488

被折叠的 条评论
为什么被折叠?



