在线手写数据的预处理方法
1 引言
在识别系统中,预处理作为一般性的第一步起着非常重要的作用,并且可以直接影响识别性能。本章提出了一种新的在线手写识别预处理技术。该方法首先使用改变角度阈值和长度阈值去除笔画的钩子,然后通过使用三次样条和平滑等插值方法的组合来过滤噪声,最后对书写进行规范化处理。通过这种方式,该技术能够提高手写符号的识别率,同时减少处理时间和计算资源的消耗。
大多数数字平板都有低通硬件滤波器。因此,当使用这些设备来捕捉手写笔画时,笔画的形状会呈现锯齿状。此外,手写笔画包含一些钩子和由于犹豫书写而重复采样的点。笔画的一些点可能会缺失,笔画中可能存在野点等。通常,这样的噪声信息会影响手写笔画轮廓的探索,从而影响后续过程,如特征提取和分类。为了提高识别率,有必要去除噪声数据,插值缺失点并规范化笔画的大小(符号、单词和表达式)。
2 预处理方法
2.1 消除重复点和钩子
2.1.1 移除重复点
一些作者使用过滤方法在弧线上插入一些空间以分隔重复点。在这里,通过检查任意两点的坐标是否相同来移除重复点。如果它们在同一位置,则保留其中一个,其他的则被移除。
2.1.2 移除钩子
通常,钩子出现在笔画的开始和/或结束处。在这些图中,一些参差不齐的点被红色圆圈标记。它们是由于快速落笔/提笔检测不准确和手部运动不规则造成的。此外,钩子通常以其小长度和大的角度变化为特征。
基于这些信息(它们的位置、小长度和锐角变化),详细介绍了去除钩子的方法。该算法首先使用等长技术插值和调整点,然后使用尖点检测方法去除钩子。
设一个笔画 S有 N个点