Python读取word文件中所有图片及doc转docx

项目需读取Word文档图片并OCR识别内容,分享Python读取Word图片方法。多线程读取多个Word文档时,会出现线程挂起或死亡问题,原因是pythoncom问题,多线程要使用DispatchEx,操作完成后需释放资源,项目在Windows下进行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近项目需要读取word文档中所有图片然后进行OCR读取内容,网上查了很多相关博客,发现很多都是抄来抄去并且都是读取word内容,最后终于发现一片大牛博客,特此分享python读取word图片
此外,我做的是多线程同时读取多个word文档,有时会发现线程挂起或者死亡,查了很多发现是pythoncom问题,需要注意word = client.Dispatch(“Word.Application”)的Dispatch,多线程必须使用DispatchEx,否则打开word时会出现操作冲突,导致线程失败。

pythoncom.CoInitialize()
    #首先将doc转换成docx#
    word = client.DispatchEx("Word.Application")
    doc = word.Documents.Open(open_doc)
    # 使用参数16表示将doc转换成docx
    doc.SaveAs(save_docx, 16)
    doc.Close()
    word.Quit()
    #释放资源
    pythoncom.CoUninitialize()

最好在word操作完成后进行资源释放,否则也会出现错误。
说明:我的项目是在windows下进行的,其他系统不知道是否合适,请自行验证。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值