Solr的自动完成实现方式(Suggester方式)

本文详细介绍了如何在Solr中配置suggest组件并使用自定义字典实现智能拼写检查。通过添加特定参数,使组件能够利用名为dict.txt的文件作为配置字典,同时解释了handler配置中`spellcheck.onlyMorePopular`参数的作用,即在查询结果多于设定数量时,返回点击次数更多的选项。此外,文章还展示了如何构建并运行suggester,以及字典文件的正确格式和存储方式。最后,通过示例演示了运行过程及结果,确保用户了解如何根据自身需求定制和优化拼写检查功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


 

组件配置 
在上一期的配置组件中添加如下的参数:

<str name="sourceLocation">dict.txt</str>  

这样我们的配置就变成了: 

复制代码
<searchComponent name="suggest" class="solr.SpellCheckComponent">   
<lst name="spellchecker">
<str name="name">suggest</str>
<str name="classname">org.apache.solr.spelling.suggest.Suggester</str>
<str name="lookupImpl">org.apache.solr.spelling.suggest.tst.TSTLookup</str>
<str name="field">name_autocomplete</str>
<str name="sourceLocation">dict.txt</str>
</lst>
</searchComponent>
复制代码

使用这个参数,我们让suggest组件使用名叫dict.txt的文件作为solr的配置字典。 


handler
配置 
handler
的配置也需要添加额外的一个参数:

<str name="spellcheck.onlyMorePopular">true</str>  

 

完整的配置为: 

复制代码
<requestHandler name="/suggest" class="org.apache.solr.handler.component.SearchComponent">   
<lst name="defaults">
<str name="spellcheck">true</str>
<str name="spellcheck.dictionary">suggest</str>
<str name="spellcheck.count">10</str>
<str name="spellcheck.onlyMorePopular">true</str>
</lst>
<arr name="components">
<str>suggest</str>
</arr>
</requestHandler>
复制代码

这个参数告诉solr,当查询的结果数多于设定的count数时,返回点击数更多的那些。 


Dictionary 
我们告诉solr来使用这个字段,那么这个字段长的什么样呢?下面来看一个例子: 

# sample dict 
Hard disk hitachi
Hard disk wd 2.0
Hard disk jjdd 3.0

 

这个字典的结果是什么样的呢?每个词组放在单独的一行中,每行以改词组的权重为结束(权重与词组之间以TAB字符分隔),这个权重就是跟spellcheck.onlyMorePopular=true 香港的参数,默认值为1.0。该字段必须以UTF-8的编码格式存储。每行前有#字符的将被忽略(注释行) 

数据 
以这种方式,我们不需要数据,字段就是数据。 

运行 
在重新构建suggester之后,我们来看一下它的运行情况,输入命令: 

/suggest?q=Har

得到的结果为: 

复制代码
<?xml version="1.0" encoding="UTF-8"?>   
<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
</lst>
<lst name="spellcheck">
<lst name="suggestions">
<lst name="Dys">
<int name="numFound">3</int>
<int name="startOffset">0</int>
<int name="endOffset">3</int>
<arr name="suggestion">
<str>Hard disk jjdd</str>
<str>Hard disk wd</str>
<str>Hard disk hitachi</str>
</arr>
</lst>
</lst>
</lst>
</response>
复制代码

 

结束语 
跟预期一样,suggest的结果是按权重排序的。这里的大小写敏感(注意首字母). 

你有什么建议呢?如果我们有一个很好的字典,这个字典的权重是基于用户的查询行为产生的,那么用户肯定会喜欢它!如果没有好的字典,还是不要用这种方式的好。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值