第 0006 题:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。
import re import os def get_list(): list_file=[] for f in os.listdir(): if f.endswith('.txt'): list_file.append(f) else : pass return list_file def get_read(search_words): dict={} for x in search_words: dict[x]=0 for x in get_list(): f=open(x,'r') s = f.read() s.replace("[^a-zA-Z]", ' ') s = s.split() for i in s: if i in dict.keys(): dict[i]=dict[i]+1 return dict for k,v in get_read(["in"]).items(): print(k,v)
此题代码和0004题类似,就不过多赘述,如有不懂可以看0004题的博客,亦可留言讨论
本文介绍了一个简单的Python脚本,用于统计目录中多个英文日记文本文件的关键词频率,避免了分词问题,通过读取所有.txt文件并统计指定单词出现次数,展示了如何进行基本的文本分析。
1173

被折叠的 条评论
为什么被折叠?



