fitz使用记录

本文介绍了使用PyMuPDF的fitz模块进行PDF解析的经验,包括提取文本、图片、背景和表格的方法,并对比了与其他工具的效能。尽管遇到挑战,如表格提取的复杂性,但fitz在PDF处理上表现出良好的实用性。

哈哈,突然发现自己还有个账号且这个账号还有写过文章,本来想写小红书的~最近在搞PDF解析,用来用去发现fitz算是比较好用的,记录几个常用的东西。不得不说,pdf解析是个大工程,我等一人之力还是不够用。。。

整体的 Open Doc

页面Page

bound 页面大小

Rect坐标(x0, y0, x1, y1)对应(左,上,右,下)

Clip截取范围

提取文本

Get_text

Text 所有纯文本

Word 每个单词(没有空格)

Block 每个文本块

Html 页面形式,包含图片等其他要素,文字的具体信息:字体、颜色、字号,不包括加粗

Dict  html的dict版本,我不大会前端,用这个最方便整合处理数据。

Sort选项  是否按照人类阅读顺序排序,当然是选True了~

提取图片

Get_pixmap  配合clip提取指定范围图片,用xref也可以提取,但是提出来的没有标题和附注,而且有时候还会把一整个页面当做图片切出来,需要过滤。

提取背景

Get_drawings  配合提取线条可以判断图片、表格、页眉页脚

提取表格

Find_tables 配合cilp提取表格,也可以直接查找表格(效果会差点)。vertical_strategy 和horizontal_strategy 参数调整提取表格的方式,选"text"可以提取无线条表格,然而我需要解析各类pdf,因此效果总是差强人意,可能事先能判断表格类型的固定格式的pdf会比较好做。

说实话,这个函数我用下来好像和pdfplumber的效果差不多,最后我用的是tabula,前两个有些表格数据提取不出来,但是这三个效果都还是一般般,表格提取可优化的点好多好杂好难,我先放弃了。。。

其他

1、pdf标题提取: 正则表达式、字体、字号、颜色、加粗综合判断,如果文本有目录,从目录提取最方便

工作这么多年,我还是个菜鸡哈哈,快乐的菜鸡♪(^∇^*)

附上pymupdf fitz文档地址:

PyMuPDF 1.23.5 documentation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值