compass配置paoding中文分词器

本文介绍了一种中文分词器Paoding的配置过程及其在Spring环境中的使用方法。对比Lucene自带的ChineseAnalyzer,Paoding能更准确地进行中文分词,尤其在处理复合词组时表现出更好的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在hibernate search和compass间最后还是选择了compass,从用法两者的差别不是特别大,都很简单,只是compass支持的持久框架更多一些

先说说为什么用paoding而不用lunece自带的ChineseAnalyzer
我用ChineseAnalyzer创建了索引后,然后搜索‘山东’这个关键字 能够搜索出包含‘山东’的文本,但是改成‘山东人在北京’啥都搜不出来,看看了其分词算是是一个字一个字的切分,可以说是相当的笨 完全仿照切分英文的方式切中文,这显然不行
后来网上搜索了一下中文分词器,决定采用qieqie兄的paoding
测试了一下效果基本能够达到

废话不多说 直接说说paoding的配置,在spring配置文件中添加庖丁分析器
<property name="compassSettings">
<props>
<prop key="compass.engine.connection">file://c:/compass</prop>
<prop key="compass.transaction.factory">org.compass.spring.transaction.SpringSyncTransactionFactory</prop>
<prop key="compass.engine.analyzer.default.type">net.paoding.analysis.analyzer.PaodingAnalyzer</prop>

</props>
</property>

classpath下创建 paoding-dic-home.properties文件
文件内容就一句:paoding.dic.home=e:/paoding
在e;/paoding目录下创建自己的词典文件 *.dic
OK 配置结束
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值