用Python3.8提取PDF中的图片（附BUG修复讲解）

最新推荐文章于 2025-09-17 18:21:47 发布

原创

最新推荐文章于 2025-09-17 18:21:47 发布 · 2.4k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#python #oa办公 #mupdf

本文介绍了如何使用Python3.8提取PDF中的图片，针对原代码中的过时部分进行了BUG修复，包括time.clock()替换为time.process_time()，_getXrefLength()替换为xref_length()，getObjectString()替换为xref_object()。适用于Python3.8.8环境，需要在Anaconda Prompt中以管理员权限安装最新版pymupdf。

1.背景介绍

之前参考了另一个博主关于用python提取PDF图片的贴子：Python提取PDF中的图片_Jayce~的博客-优快云博客_python提取pdf中的图片

把代码复制下来跑了一遍，但是没有成功。后来发现是Python、pymupdf模块版本更新的缘故，导致原有一些语句已经过时不再适用，所以修复了原有代码的一些BUG，写了这篇贴子供有需要的人参考。

2.代码

直接上代码，经过调试可用：

import fitz, time, re, os

def pdf2pic(path, pic_path):
    '''
    # 从pdf中提取图片
    :param path: pdf的路径
    :param pic_path: 图片保存的路径
    :return:
    '''
    t0 = time.process_time()  #原先的time.clock()已经不适用，要改成time.process_time()
    # 使用正则表达式来查找图片
    checkXO = r"/Type(?= */XObject)" 
    checkIM = r"/Subtype(?= */Image)" 

    # 打开pdf
    doc = fitz.open(path)
    # 图片计数
    imgcount = 0
    lenXREF = doc.xref_length()  #_getXrefLength()不适用，要改成xref_length()
 
    # 打印PDF的信息
    print("文件名:{}, 页数: {}, 对象: {}".form