用python处理信息时经常需要面对doc/docx文档,这两者机制还不一样,偏偏拿到的文件既有doc格式又有docx的,很头疼。
python的第三方库python-docx适用于写入,但对于读取信息并不友好(python-docx会把每一行解析成一个Document对象,涉及到多行信息提取就无能为力)
最后想了想,把word文档统一转化成python可以直接处理的txt会方便很多。翻墙找了很久,终于找到一个免费干净的word文档转txt程序,如下:

软件界面

几千个文档几分钟便转化好了
下载地址:
http://www.multidoc-converter.com/en/download/index.html
作者:香草喵
链接:https://www.jianshu.com/p/1e8af633fc08
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
本文介绍了一种高效的方法,可以将数千个doc和docx格式的Word文档快速批量转换为TXT格式,以便于使用Python进行文本处理。通过使用一个免费且干净的转换工具,可以在几分钟内完成大量文档的格式转换。
915

被折叠的 条评论
为什么被折叠?



