中文分词之Java实现使用IK Analyzer实现

最新推荐文章于 2024-12-20 16:29:33 发布

原创

最新推荐文章于 2024-12-20 16:29:33 发布 · 685 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#java #中文分词 #lucene

本文介绍了如何在Java项目中使用IKAnalyzer进行中文文本分词，通过实例展示了如何利用IKAnalyzer进行分词处理，并提到了所需依赖。

IK Analyzer是基于lucene实现的分词开源框架，下载路径:http://code.google.com/p/ik-analyzer/downloads/list

需要在项目中引入：

IKAnalyzer.cfg.xml

IKAnalyzer2012.jar

lucene-core-3.6.0.jar

stopword.dic

import java.io.StringReader;  
import org.apache.lucene.analysis.Analyzer;  
import org.apache.lucene.analysis.TokenStream;  
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;  
import org.wltea.analyzer.lucene.IKAnalyzer; 

public class Test2 {

	public static void main(String[] args) throws Exception {
		// TODO Auto-generated method stub
		String text="2016新时尚高端整皮超厚真狐狸毛皮草外套中长款马甲背心显瘦进口";  
        //创建分词对象  
        Analyzer anal=new IKAnalyzer(true);       
        StringReader reader=new StringReader(text);  
        //分词  
        TokenStream ts=anal.tokenStre