IKAnalyzer - 开源中文分词器

最新推荐文章于 2024-10-20 16:25:35 发布

原创

最新推荐文章于 2024-10-20 16:25:35 发布 · 774 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#中文分词 #p2p #wpf

IKAnalyzer是一款基于Java的轻量级中文分词工具包，支持细粒度和智能分词模式，具备160万字/秒的处理速度。2012版本引入了分词歧义排除算法，并支持用户词典扩展。

https://code.google.com/archive/p/ik-analyzer/

源项目作者 linliangyi2007@gmail.com 已不再维护，个人可以fork项目进行修改，github地址：GitHub - wks/ik-analyzer: No longer maintained. Please contact the origional author.

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的 IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。

在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

1.采用了特有的“正向迭代最细粒度切分算法“，支持 细粒度 和 智能分词 两种切分模式；

2.在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。

3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

4.采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符

5.优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

Maven依赖：

 <!-- https://mvnrepository.com/artifact/com.janeluo/ikanalyzer -->
        <dependency>
            <groupId>com.janeluo</groupId>
            <artifactId>ikanalyzer</artifactId>
            <version>2012_u6</version>
            <exclusions>
                <exclusion>
                    <groupId>org.apache.lucene</groupId>
                    <artifactId>lucene-core</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>org.apache.lucene</groupId>
                    <artifactId>lucene-queryparser</artifactId>
                </exclusion>
                <exclusion&