句法知识对于在线流程图识别的重要性
1. 引言
在手写文档识别领域,尤其是处理复杂的二维文档如方案、计划、图表和流程图时,识别的难度显著增加。这些文档不仅包含文本,还包含符号、形状和框等元素,因此在手写识别之前,分割和结构分析是必不可少的步骤。流程图的二维特性使得其书写顺序不一定遵循从左到右或从上到下的常规模式,而是根据内容进行调整,例如通过跟随箭头来阅读。因此,阅读和分析文档的顺序必须根据文档的具体内容进行调整。本文将探讨如何通过引入结构和句法知识来提高在线流程图的识别率。
2. 现有方法的限制
现有文献中提出了多种处理手写图表识别的方法,但这些方法普遍存在一些局限性。例如,齐等人专注于仅由符号组成的图表,而袁等人则指出图表通常包含文本和符号,假设用户在绘制图表时会明确选择一种书写方式(文本或符号)。然而,这种假设在实际应用中往往难以实现。此外,大多数符号是多笔画的,且一个符号的笔画不一定连续写成,这进一步增加了识别的难度。
2.1 符号与文本笔画的区分
一个主要的挑战是如何区分文本笔画和符号笔画。例如,一个圆形笔画可能是字母 “o” 或圆形,甚至可能是其他形状。另一个挑战是处理多笔画符号,这些符号的笔画不一定连续写成。因此,识别系统需要解决两个分割问题:一是区分文本和符号笔画,二是区分不同符号之间的笔画。
3. 引入结构知识
为了应对上述挑战,本文提出了一种结构化方法,特别适用于二维复杂手写文档。结构化方法通过引入语法描述,能够更好地理解和识别这些复杂的文档。具体而言,本文使用了现有的语法离线方法,并结合了在线后验信号,将其应用于一个公开可用的数据库。实验结果表明,结构和句法知识的引入