深蓝词库转换1.3版本发布——增强单词注音功能

本文介绍了一个用于词库转换的程序,支持多种输入法,并新增了多音字自动注音功能。通过维护多音字词库,程序能自动识别并提供正确读音,同时提供了不显示转换结果直接导出的功能,提高效率。

“深蓝词库转换”是我在闲暇时写的一个词库转换程序,实现了各种输入法的用户词库、网络词库(细胞词库)之间的相互转换。

目前支持的输入法有:

PC端:

*搜狗拼音

*QQ拼音

*QQ五笔(纯汉字)

*谷歌拼音

*搜狗五笔

*紫光拼音

*拼音加加

手机端:

*QQ手机拼音

*百度手机拼音 

由于工作和个人的原因,所以深蓝词库转换很久很久没有更新了,趁着这个国庆有时间,所以对该小程序做了下版本更新,主要更新的功能有:

1.增强了单词注音功能。

有些词库是只有汉字而完全没有拼音的词库,这种词库要转换成我们想要的词库,那么就会遇到一个多音字的问题,我以前的版本就是采用简单粗暴的办法来对付多音字,多音字直接使用一个默认注音,或者就干脆把所有多音字的拼音都显示出来,形成多个词条。

现在我对程序进行了改进,默认维护了一个多音字的词库,可以自动找到大部分多音字的正确读音。比如我们有以下这样一个词库需要转换:

音乐就是快乐
调和不能变调
我要骑我的坐骑
收藏的藏语书
刚正不阿的阿楠
子弹与弹簧
参与挖人参计划
三人行银行
曾经的曾国藩

使用1.3版的深蓝词库转换,将这个词库转换为搜狗拼音词库的界面如图所示:

image

从截图中可以看到,无论是“音乐”还是“快乐”,无论是“子弹”还是“弹簧”基本上都可以找到正确的读音。

2.外挂注音词库

能够实现上面正确注音是因为有一个默认的多音字注音词库,但是这个词库并不是很大很全,如果遇到一些没有维护在其中的多音字词,那么系统就会采用默认的拼音,那么就有可能是错误的。比如我们在维护一个关于各种参的词库,词库内容是:

人参
花旗参
党参
沙参
西洋参
高丽参

转换的结果如图所示:

image

我们可以发现,第二个词“花旗参”的注音错误了,因为系统自带注音库中没有找到这个词,所以采用了默认的注音“can”,对于这种发现的注音错误,我们可以自己维护一个注音库,命名为“pinyin.txt”,放在该转换程序的同一个目录下,然后从新运行该词库,系统将会使用这个注音库中的词。这个注音库的格式采用搜狗拼音输入法的txt词库导出格式,一个词一行。在pinyin.txt中输入“'hua'qi'shen 花旗参”并保存,重新运行该程序,可以得到我们想要的结果:

image

3.不显示转换后的结果,直接导出。

在进行大批量数据的词库转换时,有一个性能上的问题,就是将几十万或者几百万条词条显示在下面的文本框中会非常消耗资源,其实这个显示是没有必要的,我们可以直接导出转换后的词库到硬盘上即可,而减少显示这个环节。

在“高级设置”菜单中选中“不显示结果,直接导出”这个选项:

image

然后再选择词库,点击“转换”按钮,即可直接导出词库。如图所示:

image

 

1.3版下载地址在此。

我一直将这个项目开源,您对源代码感兴趣可以查看,地址为http://code.google.com/p/imewlconverter/ 

另外,QQ分类词库(QPYD格式)我研究了一下,没有研究出来,不知道该怎么解析,希望有高手能够帮忙指点指点。如果能够把QQ分类词库给导出,那就更完美了。

输入法词库转换, 基于C#开发,所以电脑上必须安装.Net Framework 2.0才能正常运行,如果双击“深蓝词库转换.exe”后弹出错误窗口,请下载安装.Net Framework 2.0再试。 1.1版支持搜狗的细胞词库(scel格式)的转换,您可以到搜狗网站下载细胞词库导入到您其他输入法或者手机输入法中! QQ的分类词库格式还没有研究出来怎么解析。 1.2版支持了紫光拼音输入法和拼音加加输入法的词库导入导出功能。增加了批量导入的功能。修复了有些scel格式词库导入时报错。 1.3增强了多音字注音功能和外挂多音字注音词库功能,另外还提供了直接导出而不显示转换结果的选项。 1.3.1版增加了对新浪拼音输入法的支持。 1.4版增加了对触宝输入法的支持,增加了拖拽功能1.5版增加了百度分类词库bdict格式的转换,增加了命令行调用功能1.6版修改了搜狗细胞词库解析和QQ手机词库解析的函数,支持最新格式。 1.7版增加了梦寐已久的QQ分类词库(qpyd格式)的转换,调整了下拉列表的顺序,增加了拖拽文件时的文件类型自动识别等功能1.8版增加了自定义编码的输出,增强了命令行功能,请使用-?查看命令行帮助。实现了百度手机分类词库(bcd格式)、小小输入法和微软拼音输入法的词库功能,但是可能由于输入法的原因,会导入失败。 1.9版增加了微软英库拼音输入法、FIT输入法、搜狗Bin格式备份词库、中州韵(小狼毫、鼠须管)、各种常用五笔输入法的支持,增加词库文件分割功能。 2.0版支持多种编码的Rime输入法,支持多种编码的小小输入法,增加了对灵格斯ld2词典格式的支持和英语词库支持,增加了简繁体转换功能,增加了对雅虎奇摩输入法、仓颉平台的支持,增强了对各五笔和郑码输入法的支持,同时优化了内部代码,增强自定义规则的功能。 如果还有更多的词库需要转换,或者对该词库转换工具有什么建议,请联系:studyzy@163.com 博客:http://studyzy.cnblogs.com 新浪微博:http://weibo.com/studyzy 深蓝词库转换的微博:http://weibo.com/imewlconverter
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值