古代阿拉伯文档文本行分割方法解析
1. 古代阿拉伯文档分割难题
古代手写文档因其书写的不规则性而本质复杂。书写者很少使用行支撑,导致书写线条弯曲;书法风格使单词各部分易出现连笔,相邻行的单词也会相互连接;文档更新直接在文本上进行,致使边缘线条延伸或添加整行内容。这些情况使行分割问题变得复杂,与现代文档分割技术寻求连接组件的平行对齐不同,古代文档的行分割是“上下文相关”的,这在过去十年一直是研究挑战。
2. 现有文档行分割方法
文献中提出了多种文档行分割方法,主要分为自上而下和自下而上两类,具体如下:
|分类|方法|特点|
| ---- | ---- | ---- |
|自上而下|投影法|从整个图像开始,迭代细分,利用先验知识如行间距、列间距或文档模型进行分割,通过分析投影直方图轮廓定位白色分隔区域,如分析垂直条纹、使用局部最小值追踪器分割行表面或计算直方图峰值与像素的向量距离。面对倾斜问题时,使用霍夫变换。|
|自上而下|知识模型法|如 DMOS 模型用语法形式化位置来建模文档结构,还有基于矢量化的算法,由线条特征如角度和长度等参数化。此外,还有使用生产系统的人工智能问题解决框架。|
|自下而上|基于连接组件法|处理噪声和书写变化问题,是手写文档行提取的主要方法。将连接组件聚类成更大元素,如单词、行和块,依据相邻块之间的几何关系(如距离、重叠和大小兼容性)使用简单规则,不同工作在处理空间变化和应对书写特点的能力上有所不同。|
|自下而上|聚类法|包括 K_NN、霍夫变换、平滑、排斥 - 吸引力网络、最小生成树(MST)和变形模型等。其中,霍夫变换的投票点选择多样,如连接组件的重心、最小值等;平滑技术通过加深水平方向相
超级会员免费看
订阅专栏 解锁全文
1607

被折叠的 条评论
为什么被折叠?



