IK分词器

最新推荐文章于 2025-12-12 15:43:51 发布

最新推荐文章于 2025-12-12 15:43:51 发布 · 152 阅读

文章标签：

#lucene #算法 #.net #IBM

其它开源框架专栏收录该内容

3 篇文章

订阅专栏

感谢各位的建议。新版分词器已经发布，整合了二元分词
下载地址：http://download.youkuaiyun.com/source/227957

来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。

1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP）

2. 对数量词、地名、路名的优化处理

3. 对未知词汇采用自识别结合二元切分算法，确保搜索召回率

新版IKAnalyzer V2.0.2 Lucene中文分词器下载地址： http://download.youkuaiyun.com/source/236243

V 2.0.2 修订 Bata版对二元切分的缺陷

正向全切分分词器：org.mira.lucene.analysis.IK_CAnalyzer（适合建索引时使用）

正向最大全切分分词器：org.mira.lucene.analysis.MIK_CAnalyzer（适合用户输入检索时使用

[color=red]字符集问题[/color]

对于UTF-8的支持，醉兄可以直接修改 org.mira.lucene.analysis.dict.Dictionary 词典管理类代码，目前是
BufferedReader br = new BufferedReader(new InputStreamReader(is , "GBK"), 512);
改为
BufferedReader br = new BufferedReader(new InputStreamReader(is , "UTF-8"), 512);就OK了，当然啦字典文件要先进行编码转化啊，别忘了哦！