爬虫代码 把文件夹内所有txt文件合并成一个新的worl文档
import os
from docx import Document
# 设置文件夹路径
folder_path = input("请输入包含.txt文件的文件夹路径:")
# 设置输出Word文档的名称
output_word_doc = 'merged_txt_documents.docx'
# 创建一个新的Word文档
doc = Document()
# 定义可能的编码列表
possible_encodings = ['utf-8', 'gbk', 'iso-8859-1']
# 遍历文件夹中的所有文件
for filename in os.listdir(folder_path):
# 检查文件扩展名是否为.txt
if filename.endswith('.txt'):
# 获取完整文件路径
file_path = os.path.join(folder_path, filename)
# 尝试不同的编码来读取文件
for encoding in possible_encodings:
try:
# 打开并读取文件内容
with open(file_path, 'r', encoding=encoding) as file:
# 读取文件内容
content = file.read()
# 成功读取后跳出循环
break
except UnicodeDecodeError:
# 如果当前编码无法读取,则尝试下一个编码
continue
else:
# 如果所有编码都无法读取,则跳过该文件
print(f"无法读取文件 {file_path},跳过。")
continue
# 将文件内容添加到Word文档中,每个文件内容后换行
doc.add_paragraph(content)
# 添加换行
doc.add_paragraph()
# 保存合并后的Word文档
doc_path = os.path.join(folder_path, output_word_doc)
doc.save(doc_path)
print(f"合并后的Word文档已保存至:{doc_path}")