1.非扫描件
模块
pip install pdf2docx
代码
from pdf2docx import Converter
pdf_file = 'C:/Users/woodwolf/Desktop/01.pdf'
docx_file = 'C:/Users/woodwolf/Desktop/02.docx'
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
输出
[INFO] Start to convert C:/Users/woodwolf/Desktop/01.pdf
[INFO] [1;36m[1/4] Opening document

这篇博客介绍了如何用Python处理非扫描件和扫描件的PDF文件转换成Word。对于非扫描件,通过特定模块和代码实现转换;而对于扫描件,需要安装tesseract-ocr并下载语言包,然后利用Python模块进行转换。
最低0.47元/天 解锁文章
1066

被折叠的 条评论
为什么被折叠?



