PDF文档解析
ceffans
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
PDF文档中表格以及形状解析-后续处理(线段生成最小多边形)
我们根据线段打断处理得到了一组被打断的小线段,接下来我们将这些小线段生成多边形。后续再根据多边形的共边关系将一个个的小多边形组合成一个表格。通过上述代码即可将小段线段处理成最小多边形。原创 2025-10-31 16:38:49 · 532 阅读 · 0 评论 -
PDF文档中图片解析
以上即为使用pdfium解析PDF文档中图片数据相关的代码。在实际测试中在word中插入的图片尺寸比转成PDF中的图片尺寸小。但是读到的图片尺寸跟PDF文档中是一致的。我们在做PDF文档解析时有时需要解析PDF文档中的图片数据。跟解析文本类似的常见的解决方案也是两种。文档解析跟ocr技术处理。下面我们来看看使用文档解析的方案来做PDF文档中的图片解析(使用pdfium库)。原创 2025-02-28 15:18:05 · 877 阅读 · 0 评论 -
PDF文档中表格以及形状解析
所以我们在进行文本表格关联时只需要判断文本位置的那个点是否在表格的多边形内即可,如果在多边形内则说明PDF中该文本为表格中该单元格的数据。大致的处理思路是将长线段打断为短线段然后再将短的线段组合成一个个的小多边形,根据多边形的上下左右共边关系生成一个表格结构。通过上述代码我们获取Path对象中的数据即可拿到表格的线条,需要的注意的时如果只拿表格的线的话需要对nPoints做判断,如果对象只有两个点则为表格的线。这里拿到的线是整体的线。在pdfium库中在解析表格时是将表格的线解析成单独的对象。原创 2025-02-28 13:00:00 · 886 阅读 · 0 评论 -
PDF文档中文本解析
这里我们主要说一下文档读取解析的方案,现在常用的解析库有mupdf、pdfium、Aspose等第三方库来处理。其中mupdf、pdfium为开源、免费的。Aspose是一款收费的商业库。在实际使用中发现使用mupdf解析文本时每一个block即为一段落的文本。但是在pdfium中获取的文本为整页中的所有文本,如果要划分段落则需要使用者自己根据字符的位置信息自己做归类处理。一是通过文档结构读取解析,另一种是通过ocr技术处理。常用的PDF文档解析解决方案有两种。下边我们分别说一说各种库的使用。原创 2025-02-20 13:30:47 · 730 阅读 · 0 评论 -
PDF文档中表格以及形状解析-后续处理(长线段根据交点打断成短线段)
使用线段相交的几何算法来检测两条线段是否相交。计算交点坐标,如果相交,则返回交点。给定n条线段,要求根据它们的交点将线段打断,生成新的线段集合。处理完得到小线段的数量为24条小线段。原创 2025-03-07 12:18:54 · 499 阅读 · 0 评论
分享