Solr的自动完成/自动补充实现介绍(第三部分)

最新推荐文章于 2026-01-05 17:06:32 发布

原创最新推荐文章于 2026-01-05 17:06:32 发布 · 173 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java

lucene 同时被 3 个专栏收录

5 篇文章

订阅专栏

solr

5 篇文章

订阅专栏

autocomplete

2 篇文章

订阅专栏

本文介绍了如何在Solr中配置自动补全功能，包括组件和handler的设置，以及如何使用外部字典文件来增强自动补全的效果。

原文URL：[u]http://java.dzone.com/news/solr-and-autocomplete-part-3?mz=33057-solr_lucene[/u]

在之前的两个部分([url=http://hankesi2000.iteye.com/admin/blogs/1134395]part1[/url]、[url=http://hankesi2000.iteye.com/admin/blogs/1171500]part2[/url])中,我们学会了如何配置和查询solr来获取自动完成的功能。今天，我们来看一下如果为suggester添加字段，以这种方式来提供自动完成的功能。
[img]http://dl.iteye.com/upload/attachment/576268/01c422e3-1b9e-376f-91a6-e379c29b52c0.png[/img]

[size=large][b]组件配置[/b][/size]
在上一期的配置组件中添加如下的参数：

<str name="sourceLocation">dict.txt</str>

这样我们的配置就变成了：


<searchComponent name="suggest" class="solr.SpellCheckComponent"> 
<lst name="spellchecker"> 
<str name="name">suggest</str> 
<str name="classname">org.apache.solr.spelling.suggest.Suggester</str>  
<str name="lookupImpl">org.apache.solr.spelling.suggest.tst.TSTLookup</str> 
<str name="field">name_autocomplete</str> 
<str name="sourceLocation">dict.txt</str> 
</lst> 
</searchComponent>

使用这个参数，我们让suggest组件使用名叫dict.txt的文件作为solr的配置字典。

[size=large][b]handler配置[/b][/size]
handler的配置也需要添加额外的一个参数：

<str name="spellcheck.onlyMorePopular">true</str>

完整的配置为：

<requestHandler name="/suggest" class="org.apache.solr.handler.component.SearchComponent"> 
<lst name="defaults"> 
<str name="spellcheck">true</str> 
<str name="spellcheck.dictionary">suggest</str>  
<str name="spellcheck.count">10</str> 
<str name="spellcheck.onlyMorePopular">true</str> 
</lst> 
<arr name="components"> 
<str>suggest</str> 
</arr> 
</requestHandler>

这个参数告诉solr，当查询的结果数多于设定的count数时，返回点击数更多的那些。

[size=large][b]Dictionary[/b][/size]
我们告诉solr来使用这个字段，那么这个字段长的什么样呢？下面来看一个例子：
[quote]
# sample dict
Hard disk hitachi
Hard disk wd 2.0
Hard disk jjdd 3.0
[/quote]
这个字典的结果是什么样的呢？每个词组放在单独的一行中，每行以改词组的权重为结束(权重与词组之间以TAB字符分隔)，这个权重就是跟[i]spellcheck.onlyMorePopular=true [/i]香港的参数，默认值为1.0。该字段必须以UTF-8的编码格式存储。每行前有#字符的将被忽略(注释行)。

[b]数据[/b]
以这种方式，我们不需要数据，字段就是数据。

[size=large][b]运行[/b][/size]
在重新构建suggester之后，我们来看一下它的运行情况，输入命令：
[quote]/suggest?q=Har[/quote]
得到的结果为：


<?xml version="1.0" encoding="UTF-8"?> 
<response> 
<lst name="responseHeader">  
<int name="status">0</int>  
<int name="QTime">0</int> 
</lst> 
<lst name="spellcheck"> 
<lst name="suggestions"> 
<lst name="Dys">    
<int name="numFound">3</int>   
<int name="startOffset">0</int>    
<int name="endOffset">3</int>     
<arr name="suggestion">     
<str>Hard disk jjdd</str>   
<str>Hard disk wd</str> 
<str>Hard disk hitachi</str>   
</arr>  
</lst> 
</lst> 
</lst> 
</response>

[size=large][b]结束语[/b][/size]
跟预期一样，suggest的结果是按权重排序的。这里的大小写敏感(注意首字母).

你有什么建议呢？如果我们有一个很好的字典，这个字典的权重是基于用户的查询行为产生的，那么用户肯定会喜欢它！如果没有好的字典，还是不要用这种方式的好。

[size=large][b]下一步[/b][/size]
下一期，我们看一下不同方式的suggest产生的索引结构和大小。