在国家自然科学基金、清华大学基础研究基金等项目的支持下,以及负责藏文样本收集分析的协作单位西北民族大学的配合下,经过近三年的不懈努力,并经过在藏族地区试用,“多字体印刷藏文(混排汉英)文档识别系统”研制终于在清华大学电子工程系取得了成功。
少数民族文字识别,如藏文识别,是最困难的模式识别问题之一,也是解决少数民族文字和文档自动识别输入计算机的重要途径。 藏文数字化对于在信息时代弘扬具有悠久历史的藏族文化具有重要意义。为此,清华大学电子工程系在汉字识别研究和高性能中日韩文档识别理解重构系统研制成功 的基础上,将我国少数民族文字识别的任务,特别是藏文识别的研究任务,摆到了自己的面前。
11月12日,由教育部组织的“多字体印刷藏文(混排汉英)文档识别系统” 技术鉴定会在清华大学电子工程系会议室召开。鉴定委员会由倪光南院士和多位藏学研究、信息处理方面的著名专家组成。 专家们对藏族地区期待已久的藏文识 别实用系统给予了很高的评价。鉴定委员会一致认为:“多字体印刷藏文(混排汉英)文档识别系统在国内外首次解决了实用多字体印刷现代藏文文本的识别问题, 并率先完成了藏汉英混排文本的识别系统,其主要技术指标达到了国际领先水平。多字体印刷藏文(混排汉英)文档识别系统为藏文纸介质文档转化为计算机可查询 的电子文档提供了有效的工具,将对藏文信息数字化发挥重要的作用。” 与会的著名藏学专家认为:具有国际领先水平的实用藏文识别系统在国内率先研制成功,是藏文信息处理领域划时代的标志,不仅具有重要经济、社会意义,更具有 突出的政治意义。
鉴定会上,清华大学和西北民族大学还向中国西藏信息中心等多家单位赠送了藏文识别软件,受到了用户单位的欢迎。
该系统的研制成功,表明清华大学丁晓青教授带领的研究组研发的世界领先水平的多文种(简繁汉、日、韩/朝鲜、英)文字识别技术,扩展到解决我国少数民 族文字自动识别输入的问题上。民族文字识别系统的研发成功,将促进民族地区的信息资源建设,在西部大开发和国家信息化事业中推广应用。