fitz使用记录

最新推荐文章于 2025-06-19 14:57:46 发布

原创最新推荐文章于 2025-06-19 14:57:46 发布 · 788 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了使用PyMuPDF的fitz模块进行PDF解析的经验，包括提取文本、图片、背景和表格的方法，并对比了与其他工具的效能。尽管遇到挑战，如表格提取的复杂性，但fitz在PDF处理上表现出良好的实用性。

哈哈，突然发现自己还有个账号且这个账号还有写过文章，本来想写小红书的~最近在搞PDF解析，用来用去发现fitz算是比较好用的，记录几个常用的东西。不得不说，pdf解析是个大工程，我等一人之力还是不够用。。。

整体的 Open Doc

页面Page

bound 页面大小

Rect坐标(x0, y0, x1, y1)对应(左，上，右，下)

Clip截取范围

提取文本

Get_text

Text 所有纯文本

Word 每个单词（没有空格）

Block 每个文本块

Html 页面形式，包含图片等其他要素，文字的具体信息：字体、颜色、字号，不包括加粗

Dict html的dict版本，我不大会前端，用这个最方便整合处理数据。

Sort选项是否按照人类阅读顺序排序，当然是选True了~

提取图片

Get_pixmap 配合clip提取指定范围图片，用xref也可以提取，但是提出来的没有标题和附注，而且有时候还会把一整个页面当做图片切出来，需要过滤。

提取背景

Get_drawings 配合提取线条可以判断图片、表格、页眉页脚

提取表格

Find_tables 配合cilp提取表格，也可以直接查找表格（效果会差点）。vertical_strategy 和horizontal_strategy 参数调整提取表格的方式，选"text"可以提取无线条表格，然而我需要解析各类pdf，因此效果总是差强人意，可能事先能判断表格类型的固定格式的pdf会比较好做。

说实话，这个函数我用下来好像和pdfplumber的效果差不多，最后我用的是tabula，前两个有些表格数据提取不出来，但是这三个效果都还是一般般，表格提取可优化的点好多好杂好难，我先放弃了。。。

其他

1、pdf标题提取：正则表达式、字体、字号、颜色、加粗综合判断，如果文本有目录，从目录提取最方便

工作这么多年，我还是个菜鸡哈哈，快乐的菜鸡♪(^∇^*)

附上pymupdf fitz文档地址：

PyMuPDF 1.23.5 documentation

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。