Lucene.net标准分词器在英文分词中有非常好的体验。比喻说:在邮件,IP地址,符号处理方面,它都处理得非常好。只是很遗憾,它不支持中文词组分词。于是,我就通过修改里面的核心代码让它扩展,支持中文的分词。
目标:使它能够增加对中文词组的切词。
效果:
原句:“我是中国人!I am chiness!Email:youpeizun126@126.com;IP:172.17.34.168”
切词效果:
我/是/中国人/中国/中/国/人/Email/youpeizun126@126.com/IP/172.17.34.168
所要完成的任务:
1. 装载词库
2. 截取一段连续的中文字段
3. 进行连续的分词.
下面是设计扩展Lucene.net标准分词器的支持中文词组分词的流程图.
接下来,我把扩展Lucene.net标准分词器所写的核心代码,主要包含三个函数,它们分别实现装载词典,载取连续中文字段,中文词组分词算法功能.

























































































































































结束,谢谢你的阅读.