多线程将 PDF 文件转换成 Image 文件,按页升序保存
多线程运行将PDF转换成Image文件目标将PDF文件按页转换成图像文件格式,每页一个jpg文件,且按照页码升序排列。问文本自动识别 OCR 做准备。采用库采用pdf2image 软件包,主要是 convert_from_path 转换函数。特点采用多线程,设置 thread_count=3, 线程数不要超过4,以免死锁,dpi取默认值200 较好。代码import osfrom sys import argvimport timefrom pdf2image import conve
原创
2021-08-08 17:04:17 ·
881 阅读 ·
0 评论