印刷卡纳达语数字识别与语音特征选择的研究
1. 印刷卡纳达语数字识别
卡纳达语数字识别属于字符识别范畴,是文档图像分析的一个子问题。文档图像分析可分为文本处理和图形处理两类。目前,针对英语、多数欧洲语言、中文和日语已有许多高精度的商业OCR系统,但近年来关于印度语言尤其是卡纳达语的相关研究较少。
1.1 现有方法的不足
- 基于神经网络的分类器,使用小波系数作为特征进行字符识别,该方法难以识别相似字符,且需要庞大的数据库。
- 基于模板匹配的卡纳达语OCR,使用支持向量机(SVM)作为分类器,此方法对字体敏感,不同字符大小下易出现故障。
- 基于图像融合方法识别孤立的卡纳达语手写数字,使用最近邻分类器进行数字模式匹配。
1.2 提出的方法
本文提出一种基于相关系数的简单模板匹配方法来识别印刷卡纳达语数字,具体步骤如下:
- 图像预处理 :
1. 将包含卡纳达语数字的扫描图像文档通过阈值处理转换为二值图像。
2. 从图像的左上角开始扫描,找到像素后定位其右下角点,提取形成的矩形,得到包含数字的一行文本。
3. 通过识别连通分量并为每个连通分量绘制边界框,将提取的行分割成单个数字图像。
4. 将分割后的对象调整为42×24像素的标准大小。
- 模板匹配 :
1. 使用Nudi 17 K字体为每个数字创建训练数据集,并存储在数据库中,数据集中的数字大小为42×24。
2. 为每个字符绘制边界框并存储框内内容。
3
超级会员免费看
订阅专栏 解锁全文
1115

被折叠的 条评论
为什么被折叠?



