爬虫代码 把文件夹内所有txt文件合并成一个新的worl文档

爬虫代码  把文件夹内所有txt文件合并成一个新的worl文档

import os
from docx import Document

# 设置文件夹路径
folder_path = input("请输入包含.txt文件的文件夹路径:")
# 设置输出Word文档的名称
output_word_doc = 'merged_txt_documents.docx'

# 创建一个新的Word文档
doc = Document()

# 定义可能的编码列表
possible_encodings = ['utf-8', 'gbk', 'iso-8859-1']

# 遍历文件夹中的所有文件
for filename in os.listdir(folder_path):
# 检查文件扩展名是否为.txt
if filename.endswith('.txt'):
# 获取完整文件路径
file_path = os.path.join(folder_path, filename)
# 尝试不同的编码来读取文件
for encoding in possible_encodings:
try:
# 打开并读取文件内容
with open(file_path, 'r', encoding=encoding) as file:
# 读取文件内容
content = file.read()
# 成功读取后跳出循环
break
except UnicodeDecodeError:
# 如果当前编码无法读取,则尝试下一个编码
continue
else:
# 如果所有编码都无法读取,则跳过该文件
print(f"无法读取文件 {file_path},跳过。")
continue

# 将文件内容添加到Word文档中,每个文件内容后换行
doc.add_paragraph(content)
# 添加换行
doc.add_paragraph()

# 保存合并后的Word文档
doc_path = os.path.join(folder_path, output_word_doc)
doc.save(doc_path)

print(f"合并后的Word文档已保存至:{doc_path}")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Aheyor黄建珲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值