Luncene学习笔记 -- day04 分词器

一:查看分词器的分词效果

1.步骤:

a、创建一个分词器对象

b、调用分词器对象的tokenStream方法,参数就是要分词的内容,返回TokenStream对象

c、遍历TokenStream对象

           (1)、设置引用,代表当前的关键词。相当于指针

           (2)、调用tokenStream的rest方法

           (3)、循环tokenSteam中的内容

           (4)、打印单词列表

d、关闭tokenSteam

2.具体代码

	@Test
	public void testTokenStream() throws Exception {
		// 1)创建一个分析器对象
		//Analyzer analyzer = new StandardAnalyzer();
		// 2)调用分析器对象的tokenStream方法,参数就是要分析的内容。返回TokenStream对象。
		//参数1:域的名称,此时可以任意 参数2:要分析的文本内容
		TokenStream tokenStream = analyzer.tokenStream("", "鲁大师是国内最大的免费系统工具软件,免费提供硬件真伪辨别、电脑(手机)稳定保障、系统性能提升, 鲁大师拥有硬件检测、硬件测试、系统优化、节能降温、驱动安装、驱动");
		// 3)遍历TokenStream对象
		// a.设置引用,代表当前的关键词。相当于指针。
		CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
		// b.调用tokenstream的rest方法。
		tokenStream.reset();
		// c.循环取tokenstream中的内容
		while(tokenStream.incrementToken()) {
			// d.打印单词列表
			System.out.println(charTermAttribute);
		}
		// 4)关闭tokenstream
		tokenStream.close();
	}

二:IK分词器的使用

1.导入jar包
2.导入配置文件以及扩展词停用词文件


3.配置文件配置

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">ext.dic;</entry> 
	
	<!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">stopword.dic;</entry> 
	
</properties>

4.代码编写

		//创建一个标准分词器
		Analyzer analyzer = new IKAnalyzer();


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值