1.背景介绍
之前参考了另一个博主关于用python提取PDF图片的贴子:Python提取PDF中的图片_Jayce~的博客-优快云博客_python提取pdf中的图片
把代码复制下来跑了一遍,但是没有成功。后来发现是Python、pymupdf模块版本更新的缘故,导致原有一些语句已经过时不再适用,所以修复了原有代码的一些BUG,写了这篇贴子供有需要的人参考。
2.代码
直接上代码,经过调试可用:
import fitz, time, re, os
def pdf2pic(path, pic_path):
'''
# 从pdf中提取图片
:param path: pdf的路径
:param pic_path: 图片保存的路径
:return:
'''
t0 = time.process_time() #原先的time.clock()已经不适用,要改成time.process_time()
# 使用正则表达式来查找图片
checkXO = r"/Type(?= */XObject)"
checkIM = r"/Subtype(?= */Image)"
# 打开pdf
doc = fitz.open(path)
# 图片计数
imgcount = 0