nutch研究记录2（搜索器配置）

Nutch搜索器配置指南

最新推荐文章于 2022-02-25 20:00:37 发布

最新推荐文章于 2022-02-25 20:00:37 发布 · 103 阅读

文章标签：

#Tomcat #Web #XML #C #C++

搜索引擎专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍如何配置Nutch搜索器并解决中文乱码问题，包括部署步骤、配置文件修改及常见异常处理。

2.    搜索器配置。
    a)    将nutch-1.0.war部署到tomcat上，第一次部署tomcat会报错，没关系，因为还没进行配置，我们目的在于解压出nutch-1.0，呵呵。
    b)    打开搜索器目录(我们称为web nutch)，配置WEB-INF/classes/nutch-site.xml，

<property>
	    <name>searcher.dir</name>
	    <value>E:/java/CoreJava/IndexSearchAbout/nutch-1.0/crawled</value>
</property>

c) 现在启动web nutch应该就没问题了，不过搜索中文时候会出现乱码，可以修改tomcat/conf/server.xml来解决

<!--
    <Connector port="8080" protocol="HTTP/1.1" 
               connectionTimeout="20000" 
               redirectPort="8443" />
 -->
<Connector port="8080" 
     		maxThreads="150" 
     		minSpareThreads="25" 
     		maxSpareThreads="75" 
     		enableLookups="false" 
     		redirectPort="8443" 
     		acceptCount="100" 
     		debug="0" 
     		connectionTimeout="20000" 
     		disableUploadTimeout="true" 
     		URIEncoding="UTF-8" 
     		useBodyEncodingForURI="true" />

这里需要提醒一下，如果同一机器上同时运行搜索器和爬虫时候，当爬虫抓取数据保存到索引时候会抛出异常，因为有些索引文件被搜索器锁定，所以操作不了，导致异常！