基于lucene的几种中文分词测试代码

本文通过测试四种中文分词方法(标准、ChineseAnayzer、je、Smart),分析了它们在正确率和时间效率上的表现,并指出基于中科院的分词方法在多次分析后时间显著减少,可能与隐马尔科夫模型有关。文章提供了详细的实验结果和链接资源,供读者深入学习。
部署运行你感兴趣的模型镜像

 

出处:http://hi.baidu.com/lewutian/item/0231d0f26132e2b731c19997

/**
@本程序测试了四种中文分词(标准,ChineseAnayzer,je,Smart(基于中科院))的方法,读者可以通过本程序分析学习这四种中文分词方法的优劣
@其中lucene采用的2.4.1最新版本,点击这里下载学习
@中科院分词java版学习和下载到这里
@je-Analyzer下载到这里
*/
public static void main(String[] args)
    {
        String text ="发展中国家在上海大学城购买了道具和服装" ;    
        StandardAnalyzer analyzerStand = new StandardAnalyzer();//内置
        ChineseAnalyzer    chineseAnalyzer = new ChineseAnalyzer();//lucene2.4版本+
        CJKAnalyzer cjkanalyzer = new CJKAnalyzer();//亚洲字符分析器
        MMAnalyzer    analyzer = new MMAnalyzer();//je-analyzer
        Analyzer    smartChineseAnalyzer = new SmartChineseAnalyzer();//基于中科院
        try
        {
            AnalyzerUtils.displaytokens(analyzerStand, text);
            AnalyzerUtils.displaytokens(chineseAnalyzer, text);
            AnalyzerUtils.displaytokens(cjkanalyzer, text);
            AnalyzerUtils.displaytokens(smartChineseAnalyzer, text);
            AnalyzerUtils.displaytokens(analyzer, text);
        }
        catch (IOException e)
        {
                e.printStackTrace();
        }

Run and Show results:

从结果可以看出2点:
正确率: Je>=Smart>=二分法>=Chinese>=Stand
时间:     Stand<=二分法Chinese<= Smart<=Je
还有一点,就是经过几次分析后,可以明显看出基于中科院的那个分词时间明显下降一个数量级,没有仔细
研究,怀疑和隐马尔科夫模型有关。

其他的优劣请读者自我发掘,有问题麻烦告诉我,Thx。
http://hi.baidu.com/lewutian推荐文章:
1. VC MFC中设置对话框的背景色、背景图片
2. 将汉字转化为拼音 实现中英文混合排序 pinyin4j
3. 1
4. 1
5. Lucene 2.2.0
6. 转一篇比较好的Lucene的文章
7. Lucene构架全文搜索引擎
8. lucene 对目录索引和搜索例子
9. 用开源软件构建垂直搜索引擎
10. Lucene简单使用
11. lucene中文切词(没加庖丁方法的)算法
12. lucene demo
13. 采访IK Analyzer 中文分词器开源项目作者林良益
14. Lucene中文分词下载
15. lucence 3.0 分词测试

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值