nutch特定域(field)的搜索

本文介绍如何在Nutch中配置自定义字段搜索,通过修改配置文件实现对特定字段如标题和内容的精确搜索。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. WEB-INF/classes/custom-fields.xml里添加: 
<entry key="field1.name">title</entry> 
<entry key="field1.indexed">yes</entry> 
<entry key="field1.stored">yes</entry> 
<entry key="field1.tokenized">no</entry> 
<entry key="field1.boost">1.0</entry> 
<entry key="field1.multi">false</entry> 
<entry key="field2.name">content</entry> 
<entry key="field2.indexed">yes</entry> 
<entry key="field2.stored">yes</entry> 
<entry key="field2.tokenized">no</entry> 
<entry key="field2.boost">1.0</entry> 
<entry key="field2.multi">false</entry> 
2. plugin/query-custom/plugin.xml里修改: 
<extension id="org.apache.nutch.searcher.custom" 
name="Nutch Custom Field Query Filter" 
point="org.apache.nutch.searcher.QueryFilter"> 
<implementation id="CustomQueryFilter" 
class="org.apache.nutch.searcher.custom.CustomFieldQueryFilter"> 
<parameter name="fields" value="lang,content,title" /> 
</implementation> 

</extension>

3.在nutch-default.xml中添加插件query-custom:

 <property>
  <name>plugin.includes</name>
  <value>protocol-http|urlfilter-regex|parse-(text|html|js)|index-(basic|anchor)|query-(basic|site|url|custom)|response-(json|xml)|summary-lucene|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
  <description>
  </description>
</property>

4. 重启tomcat 
之后可以使用content:XXX或者title:XXX只搜索content或者title了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值