IkAnalyzer3.1.6 分词（兼容lucene2.4 和2.9）

IKAnalyzer分词器演示

最新推荐文章于 2025-11-30 18:24:05 发布

原创最新推荐文章于 2025-11-30 18:24:05 发布 · 182 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java

本文展示了一个使用IKAnalyzer进行中文分词的例子。通过Java代码实现了对字符串“中华人民共和国”的分词操作，并记录了分词所需的时间。此例有助于理解IKAnalyzer如何用于中文搜索引擎和文本处理任务。

package com.ourdms.util;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class SegDemo {

    public static void main(String[] args) throws IOException {
        String text = "中华人民共和国 ";
        Analyzer analyzer = new IKAnalyzer();
        StringReader reader = new StringReader(text);

        long startTime = System.currentTimeMillis(); // 开始时间
        TokenStream ts = analyzer.tokenStream("", reader);
        Token token = new Token();
        token = ts.next(token);
        while(token!=null){
            System.out.println(token.term());
            token = ts.next(token);
        }
        //System.out.println(ts.next(token).term());

        long endTime = System.currentTimeMillis(); // 结束时间
        System.out.println("IK分词耗时" + new Float((endTime - startTime)) / 1000
                + "秒!");
    }
}