为了跳过某些限制,需要把内容弄成非结构化的图片。自己动手丰衣足食,使用pdf2image库,该库可以将PDF文件转换为图像格式,然后使用Pillow库将多个图像合并成一张长图。
pdf_path是要转换的PDF文件路径,output_image_path是输出图像的路径。首先,使用convert_from_path函数将PDF文件转换为图像列表。然后,获取第一个图像的尺寸,并创建一个与所有图像大小相同的画布。最后,将所有图像粘贴到画布上,并将画布保存为一张长图。
1.安装Poppler工具
在Windows系统上,可以从以下网址下载并,将Library\bin目录添加到环境变量: