python练习册0006

最新推荐文章于 2025-08-23 12:58:48 发布

转载最新推荐文章于 2025-08-23 12:58:48 发布 · 75 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/bianzhuo/p/9845562.html

文章标签：

#python

本文介绍了一个简单的Python脚本，用于统计目录中多个英文日记文本文件的关键词频率，避免了分词问题，通过读取所有.txt文件并统计指定单词出现次数，展示了如何进行基本的文本分析。

第 0006 题：你有一个目录，放了你一个月的日记，都是 txt，为了避免分词的问题，假设内容都是英文，请统计出你认为每篇日记最重要的词。

import re
import os
def get_list():
    list_file=[]
    for f in os.listdir():
        if f.endswith('.txt'):
            list_file.append(f)
        else :
            pass
    return  list_file

def get_read(search_words):
    dict={}
    for x in search_words:
        dict[x]=0
    for x in get_list():
        f=open(x,'r')
        s = f.read()
        s.replace("[^a-zA-Z]", ' ')
        s = s.split()
        for i in s:
            if i in dict.keys():
                dict[i]=dict[i]+1
        return dict


for k,v in get_read(["in"]).items():
    print(k,v)