【记录】PDF转图片

最新推荐文章于 2024-05-08 11:33:07 发布

原创

最新推荐文章于 2024-05-08 11:33:07 发布 · 354 阅读

0 ·

CC 4.0 BY-SA版权

本文档记录了如何利用fitz库将PDF文件转换为图片，并在生成的图片上添加标注，以指示PDF上的原有注释位置。这个过程对于处理PDF文档并进行视觉呈现非常有用。

最近需要写了个工具，其中需要把PDF转变成图片，并在图片上画出框框，标注出原始标注信息的位置；

这里记录一下PDF转图片的方法；其中PDF转图片用到的包为 fitz ；

代码：

# coding:utf-8
"""
@author: Finks
@time: 2020/12/14 20:23

"""

import sys, fitz
import os
import datetime
from tqdm import tqdm, trange
import matplotlib.pyplot as plt
from PIL import Image
import json



def pdf2img(pdf_path, img_dir):
    """
    PDF转化为图片
    :param pdf_path: PDF路径
    :param img_dir: 图像输出路径
    :return:
    """
    # open document
    pdfDoc = fitz.open(pdf_path)
    # iterate through the pages
    for pg in trange(pdfDoc.pageCount):
        page = pdfDoc[pg]
        # 缩放和旋转系数
        # 每个尺寸的缩放系数为1.3，这将为我们生成分辨率提高2.6的图像
        # 此处若是不做设置，默认图片大小为：792X612, dpi=72
        rotate = int(0)
        zoom_x = 2.  # (1.33333333-->1056x816)   (2-->1584x1224)
        zoom_y = 2.
        mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
        rect = page.rect  # 页面大小