感谢各位的建议。新版分词器已经发布,整合了二元分词
下载地址:http://download.youkuaiyun.com/source/227957
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。
1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP)
2. 对数量词、地名、路名的优化处理
3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率
新版IKAnalyzer V2.0.2 Lucene中文分词器下载地址 : http://download.youkuaiyun.com/source/236243
V 2.0.2 修订 Bata版对二元切分的缺陷
正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用)
正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用
[color=red]字符集问题[/color]
对于UTF-8的支持,醉兄可以直接修改 org.mira.lucene.analysis.dict.Dictionary 词典管理类代码,目前是
BufferedReader br = new BufferedReader(new InputStreamReader(is , "GBK"), 512);
改为
BufferedReader br = new BufferedReader(new InputStreamReader(is , "UTF-8"), 512);就OK了,当然啦字典文件要先进行编码转化啊,别忘了哦!
下载地址:http://download.youkuaiyun.com/source/227957
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。
1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP)
2. 对数量词、地名、路名的优化处理
3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率
新版IKAnalyzer V2.0.2 Lucene中文分词器下载地址 : http://download.youkuaiyun.com/source/236243
V 2.0.2 修订 Bata版对二元切分的缺陷
正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用)
正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用
[color=red]字符集问题[/color]
对于UTF-8的支持,醉兄可以直接修改 org.mira.lucene.analysis.dict.Dictionary 词典管理类代码,目前是
BufferedReader br = new BufferedReader(new InputStreamReader(is , "GBK"), 512);
改为
BufferedReader br = new BufferedReader(new InputStreamReader(is , "UTF-8"), 512);就OK了,当然啦字典文件要先进行编码转化啊,别忘了哦!