高效字符分割与地理信息系统设施选址技术
在文本处理和地理信息系统(GIS)领域,字符分割和设施选址是两个重要的研究方向。下面将分别介绍孟加拉语字符修饰符的检测与分割方法,以及基于GIS的新设施区域选址技术。
孟加拉语字符修饰符的检测与分割
在处理孟加拉语文本时,准确检测和分割字符修饰符是一项具有挑战性的任务。传统基于规则的方法,如利用分割字符的水平游程长度分布来识别下部修饰符,在实际应用中存在困难,难以在各种文档中成功识别下部字符修饰符。
提出的方法
- 去除标题线
- 首先,通过水平投影轮廓(hpp)检测输入孟加拉语文本行中标题线的位置,标题线位置对应hpp的最大值。
- 为了将上部区域与文本行的其余部分分开,需要去除标题线,这也有助于分割单词中的单个字符。然而,由于标题线宽度和对齐方式的变化,去除标题线的操作常受到影响。
- 为解决此问题,获取输入文本行图像的Canny边缘,使用概率霍夫变换(PHT)检测Canny边缘图中的水平线。PHT相对标准霍夫变换(SHT)技术速度更快,且在处理噪声数据时效果更好。
- 通过PHT识别的每个单词的水平边缘中,最接近hpp检测到的标题线位置的边缘,若在检测到的标题线位置上方,则向下移动找到标题线的下边缘;否则,向上移动找到标题线的上边缘。
- 确定标题线的两个边缘后,估计每个单词的标题线宽度,将标题线两个边缘之间的黑色像素变为白色,从而去除标题线。去除标题线后,标题线下方的单个字符或其部分会断开,将其传递到下一个模块以识别是否存在下部修饰符。 <
超级会员免费看
订阅专栏 解锁全文
1246

被折叠的 条评论
为什么被折叠?



