文档布局与阅读序列分析
1. 引言
随着电子文档的日益普及,从纸质文档中提取信息的需求也不断增加。为了实现这一目标,不仅要精确识别机器打印字符,还需要分析文档的布局结构。准确理解层次化的文档布局可以实现从纸质文档中正确提取阅读序列,并为纸质文档提供电子文档的多功能益处。本文将介绍一种扩展分割检测方法,该方法不仅使用直线,还引入了分段线性边界来进行更精确的分割,从而有效地分析文档布局并生成正确的阅读序列。
2. 文档布局分析
2.1 分割检测方法
分割检测方法将文档图像递归地分割成子区域,并生成一个树结构来表示分割的层次布局。该方法通过使用基于周期性和可分性测量的规则来计算将一个区域分割成子区域的可能性,并确定分割的方向和位置。
- 周期性 :定义为在投影模式中相邻峰值之间距离的平均值。
- 可分性测量 :通过 Fisher 比率获得,当一个包含两个相邻峰值的部分投影模式被视为概率分布时。
2.2 分割错误检测
为了检测分割错误,该方法估计字符大小以及字符之间、字符行之间和块之间的间隙宽度。因此,该方法对这些变化具有鲁棒性。由于该方法从整个文档页面递归地检测到子区域的分割错误,所以它可以轻松提取文档页面的层次布局结构。这是在文档按照普通排版规则排列的条件下完成的,