python提取txt内容写入新word_Python抽取world文档文本内容

该博客介绍了一个Python脚本,使用pywin32库将Word(.doc/.docx)文件转换为TXT格式。脚本通过检查文件后缀,打开Word应用,读取文档并保存为纯文本。此外,代码还可扩展支持PDF格式的文本抽取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、基础准备:

运行环境:win10系统、python3.7

插件:pywin32

2、world转text算法实现

算法思路:

(1)定义文件路径和转存路径:使用split切分

(2)修改新的文件名

(3)设置完整的保存路径:使用join

(4)启动应用程序进行格式转换

(5)保存文本

a16943f80a42

image.png

结构如下图所示:首先读取要提取的word文件路径,截取文件路径和文件名称,通过文件名称后缀判断是否是world文件,若是,修改文件名后缀,与前面的文件路径合并形成新的文件保存路径,然后进行文本提取,最后将提取的内容保存到新的路径下并保存。

3、工程目录如下

a16943f80a42

image.png

4、代码实现

# coding=utf-8

import fnmatch

import os

from win32com import client as wc

'''

功能描述:world文件转存txt

参数描述:1、file_path文件路径;2、save_path:保存路径

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值