Python 合并多个TXT文件并统计词频！

最新推荐文章于 2025-10-30 09:14:41 发布

原创

最新推荐文章于 2025-10-30 09:14:41 发布 · 2.2k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#Python

该博客介绍了如何使用Python读取多个TXT文件，合并内容到新文件，并对新文件进行词频统计，以找出出现最多的10个单词。示例代码在Windows 10和Python 3.7.4环境下运行成功。

需求是：针对三篇英文文章进行分析，计算出现次数最多的 10 个单词

逻辑很清晰简单，不算难，使用 python 读取多个 txt 文件，将文件的内容写入新的 txt 中，然后对新 txt 文件进行词频统计，得到最终结果。

代码如下：(在Windows 10，Python 3.7.4环境下运行通过)

Python资源共享群：626017123

# coding=utf-8
import re
import os
# 获取源文件夹的路径下的所有文件
sourceFileDir = 'D:\\Python\\txt\\'
filenames = os.listdir(sourceFileDir)
# 打开当前目录下的 result.txt 文件，如果没有则创建
# 文件也可以是其他类型的格式，如 result.js
file = open('D:\\Python\\result.txt', 'w')
# 遍历文件
for filename in filenames:
    filepath = sourceFileDir+'\\'+filename
    # 遍历单个文件，读取行数，写入内容
    for line in open(filepath):
        file.writelines(line)
        file.write('\n')
# 关闭文件
file.close()
# 获取单词函数定义
def getTxt():
    txt = open('result.txt').read()
    txt = txt.lower()
    txt = txt.replace('’', '\'')
    # !"@#$%^&*()+,-./:;<=>?@[\\]_`~{|}
    for ch in '!"’@#$%^&*()+,-/:;<=>?@[\\]_`~{|}':
        txt.replace(ch, ' ')
        return txt
# 1.获取单词
hamletTxt = getTxt()
# 2.切割为列表格式，'’ 兼容符号错误情况，只保留英文单词
txtArr = re.fin