Pymupdf 只能提取以“图片”形式插入的,不能提取word中作的图表
pdfminer 同上
pdf-图片,使用百度api接口提取 效果不好
Inkscape可以对pdf操作,将提取的内容转为矢量图
pdf-word, word另存为“网页”,得到一个都是图片的文件夹。
pdf-word有多种方式: 以下图片是描述矢量图
1.python包转,有一些图片没转出来,word-文件后,图片格式为jpg/png,图上数字丢失
2.网上工具转,word中图片是全的,但是word-文件后:a.还是丢失了一些图 b.矢量图对应gif格式,无背景,插入在word里边的不光滑,成像素点了,图上数字丢失
3.pdf直接用word打开,这样转出来全,但是:1.部分图是png/jpg,部分是gif 2.也是模糊的 3.而且同一行多个图片,会被转成一个图

考虑python提取word中的图片...