使用IKAnalyzer3.2.3分词器提取标题关键词

由于C2C的商城要实现一个简单的商品关键词搜索,建立关键词和商品的映射表需要先对商品标题自动提取关键词,

故用了lucene Analyzer\IKAnalyzer3.2.3做测试,对标题进行关键词切分.

感觉还是IKAnalyzer的分词比较贴切些。

直接附上jsp测试代码:

<%@page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8" buffer="2kb" session="false" autoFlush="true"%>
<%@page import="java.io.*,
        org.apache.lucene.analysis.*,
        org.apache.lucene.analysis.TokenStream,
        org.apache.lucene.analysis.tokenattributes.TermAttribute,
        org.wltea.analyzer.lucene.IKAnalyzer,
        org.apache.lucene.util.*
"%>
<%
IKAnalyzer ka = new  IKAnalyzer(true);
String s = "发布IKAnalyzer中文分词器 - Java、咖啡与茶";
Reader r = new StringReader(s);
TokenStream ts = (TokenStream)ka.tokenStream("title", r);
ts.addAttribute(TermAttribute.class);
        while (ts.incrementToken()) {
               TermAttribute ta =ts.getAttribute(TermAttribute.class);
               out.print(ta.term());
               out.print(" | ");
        } 

%>

 

IKAnalyzer.cfg.xml放在 WEB-INF/classes/下,自定义的字典文件也在这个目录下

测试效果如:


当然要用在商城里,我还需要扩展一个商品品牌相关的字典

在此十分感谢作者提供了这么好的一个插件.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值