修改Imdict做的一个简单分词器

本文介绍了一种分词器的实现方法,包括词扩展、地址识别和拼音转换功能,并提供了源代码。旨在通过社区合作优化代码性能和扩展词库。

最近想到给分词加点扩展,于是将以前的代码找出来写了一个分词器

这个分词器可以对现在将代码贴出来:

(1)搜索词进行扩展(这个需要依赖一个近义词词库,但网上找了好久,没有适合的,只有小学生的成语近义词)

(2)找出地址(类似的也可以找出 人名, 歌名。。。,这个也需要一个词库)

(3) 将搜索结果变为汉语拼音 (这个依赖了pingyin4j)

 该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来,

 测试结果:

例句:分词爱琪美我该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来 北京海淀火锅

普通分开:分词 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需要 的 词 那么 他 就可以 分出 来 北京 海淀 火锅
12

加扩展:分词 academie or 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需要 的 词 那么 他 就可以 分出 来 北京 海淀 火锅
139

挑出地址:key:分词 爱琪美 我 该 器 以 词典 为主 如果 你 里 有你 需要 的 词 那么 他 就可以 分出 来 火锅  address:北京 海淀
147

现在将源码贴出来,希望有缘的人可以对该代码进行优化,让他的速度得到一个高的提升 词库得到扩展

下载地址:

 

 

 

转载于:https://www.cnblogs.com/tomcattd/archive/2013/01/25/2876263.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值