大家在日常的工作学习过程中,都会遇到一个问题就是将pdf中的文本内容转化为word的形式,也就是从只读变成可读写的形式。面对这种情况,大家大都采用网上的工具,但是网上的工具良莠不齐,很难达到我们的需求。
今天,小编就带领大家利用python来实现如何将pdf的内容转化为word文档。同时我们还将提取pdf中的图片,保存到我们的指定文件夹内。
01.文字的提取
我们首先要做的是对于pdf中文本的提取,如下图所示:

Pdf中文字是只允许我们进行只读,但是无法进行更改,所以我们要做的就是提取pdf中的文字信息,然后将提取到的文字写入到word文件当中,让我们能够进行后续的改写。对于文字的提取,我们利用的是pdfminer函数库,其主要的函数如下图所示:

-
程序首先利用get_content_from_pdf函数来返回pdf中提取到的数据;
-
然后分别创建了PDFResourceManager对象来保存共享数据内容,PDFPageAggregator对象来将资源对象处理成我们需要的格式,而PDFPageInterpreter则是用来处理页面的内容;
-
程序中page_index用来帮助我们设定需要提取哪几页的内容,对于我们需要提取的页面,通过创建的PDFPageInterpret

本文介绍如何使用Python的pdfminer和fitz库将Pdf中的文字和图片转换为Word文档。通过get_content_from_pdf函数提取文字,fitz库处理图片,成功实现PDF到DOC的转换,提高工作效率。
最低0.47元/天 解锁文章
1740

被折叠的 条评论
为什么被折叠?



