哈哈,突然发现自己还有个账号且这个账号还有写过文章,本来想写小红书的~最近在搞PDF解析,用来用去发现fitz算是比较好用的,记录几个常用的东西。不得不说,pdf解析是个大工程,我等一人之力还是不够用。。。
整体的 Open Doc
页面Page
bound 页面大小
Rect坐标(x0, y0, x1, y1)对应(左,上,右,下)
Clip截取范围
提取文本
Get_text
Text 所有纯文本
Word 每个单词(没有空格)
Block 每个文本块
Html 页面形式,包含图片等其他要素,文字的具体信息:字体、颜色、字号,不包括加粗
Dict html的dict版本,我不大会前端,用这个最方便整合处理数据。
Sort选项 是否按照人类阅读顺序排序,当然是选True了~
提取图片
Get_pixmap 配合clip提取指定范围图片,用xref也可以提取,但是提出来的没有标题和附注,而且有时候还会把一整个页面当做图片切出来,需要过滤。
提取背景
Get_drawings 配合提取线条可以判断图片、表格、页眉页脚
提取表格
Find_tables 配合cilp提取表格,也可以直接查找表格(效果会差点)。vertical_strategy 和horizontal_strategy 参数调整提取表格的方式,选"text"可以提取无线条表格,然而我需要解析各类pdf,因此效果总是差强人意,可能事先能判断表格类型的固定格式的pdf会比较好做。
说实话,这个函数我用下来好像和pdfplumber的效果差不多,最后我用的是tabula,前两个有些表格数据提取不出来,但是这三个效果都还是一般般,表格提取可优化的点好多好杂好难,我先放弃了。。。
其他
1、pdf标题提取: 正则表达式、字体、字号、颜色、加粗综合判断,如果文本有目录,从目录提取最方便
工作这么多年,我还是个菜鸡哈哈,快乐的菜鸡♪(^∇^*)
附上pymupdf fitz文档地址:
本文介绍了使用PyMuPDF的fitz模块进行PDF解析的经验,包括提取文本、图片、背景和表格的方法,并对比了与其他工具的效能。尽管遇到挑战,如表格提取的复杂性,但fitz在PDF处理上表现出良好的实用性。
4831

被折叠的 条评论
为什么被折叠?



