python提取PDF文档中的图片

最新推荐文章于 2024-07-16 16:11:37 发布

A_DAY_IN_MY_LIFT

最新推荐文章于 2024-07-16 16:11:37 发布

阅读量1.2k

点赞数

分类专栏： python 文章标签： python pdf

本文链接：https://blog.youkuaiyun.com/mymyeanngg/article/details/102971363

版权

首先安装第三方类库pymupdf：pip install pymupdf

pypy通过pip安装pymupdf可能会出现失败的情况，所以建议用python3

使用前修改文件名和输出图片的路径

import fitz
import time
import re
import os
def pdf2pic(path, pic_path):
    t0 = time.clock()                          # 生成图片初始时间
    checkXO = r"/Type(?= */XObject)"           # 使用正则表达式来查找图片
    checkIM = r"/Subtype(?= */Image)"
    doc = fitz.open(path)                      # 打开pdf文件
    imgcount = 0                               # 图片计数
    lenXREF = doc._getXrefLength()             # 获取对象数量长度
     
    # 打印PDF的信息
    print("文件名:{}, 页数: {}, 对象: {}".format(path, len(doc), lenXREF - 1))
     
    # 遍历每一个对象
    for i in range(1, lenXREF):
        text = doc._getXrefString(i)            # 定义对象字符串
        isXObject = re.search(checkXO, text)    # 使用正则表达式查看是否是对象
        isImage = re.search(checkIM, text)      # 使用正则表达式查看是否是图片
        if not isXObject or not isImage: