在windows中如何安装Nutch

本文详细介绍了在Windows环境下安装Nutch的过程,包括所需环境准备(JDK、Tomcat、Cygwin)、Nutch安装与配置步骤、抓取网站内容的方法及Tomcat配置等关键信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

HTML Tags and JavaScript tutorial



在windows中如何安装Nutch




        本来有机会接一个搜索引擎项目的,但最终因价格问题双方谈崩。为此,我感到深深的遗憾,失去了一个极好的实践机会。但我不想因此放弃对搜索引擎的学习和实践,在网上听到很多人推荐Nutch。所以我打算学习一下Nutch,要学习Nutch,还是先从安装和使用Nutch开始吧。以下是我在xp sp2环境下安装Nutch的过程记录。
安装Nutch需要的环境 
jdk1.4.x or jdk1.5
tomcat4
.x以上
 cygwin
软件下载地址:

j2SE5.0
    
     
 
http://java.sun.com/javase/downloads/index.html
Tomcat5.5
     
http://tomcat.apache.org/download-55.cgi
Cygwin
          
http://www.cygwin.com/
Nutch-0.7.2
    
http://lucene.apache.org/nutch/
安装步骤:(具体的安装目录可任意)
1、安装JDK,我看到网上nutch支持的是jdk1.4,不过我安装得是,jdk1.5,为了安装tomcat5.5
       我的安装路径:F:/project/java/jdk5
2、安装cygwin,方法网上很多,我推荐安装本地安装版
       我的安装路径: E:/Program Files/cygwin/
3、安装tomcat,nutch的说明支持tomcat 4.3,我安装的是tomcat5.5
       我的安装路径:F:/project/Tomcat 5.5
4、安装nutch-0.7.1.zip
       将下载的压缩包解压缩到:F:/project/nutch-0.7.2/
配置步骤:
1、配置cygwin中的环境
        E:/Program Files/cygwin/etc/profile
        
        PATH="/usr/local/bin:/usr/bin:/bin:$PATH:/cygdrive/f/project/java/jdk5"
        export NUTCH_JAVA_HOME=/cygdrive/f/project/java/jdk5
        export JAVA_HOME=/cygdrive/f/project/java/jdk5
2、配置 nutch
      1) 配置抓取过滤器,确定要抓取的网站地址
         打开 F:/project/nutch-0.7.2/conf/crawl-urlfilter.txt
        # accept hosts in MY.DOMAIN.NAME
        +^http://([a-z0-9]*/.)*gucas.ac.cn/
        将上面的gucas.ac.cn改为你需要搜索的域名
        
       2) 配置抓取的起始网站地址
        在F:/project/nutch-0.7.2中建立目录URLS,目录中建立文件URLS-20060723
       文件内容:
http://www.gucas.ac.cn
       
3) 个性化配置
       Nutch中的所有配置文件都放置在总目录下的conf子文件夹中,最基本的配置文件是
conf/nutch-default.xml
。这个文件中定义了Nutch的所有必要设置以及一些默认值,它是不可以被修改的。如果你想进行个性化设置,你需要在conf/nutch-site.xml进行设置,它会对默认设置进行屏蔽。
         Nutch考虑了其可扩展性,你可以自定义插件plugins来定制自己的服务,一些plugins存放于plugins子文件夹。Nutch的网页解析与索引功能是通过插件形式进行实现的,例如,对HTML文件的解析与索引是通过
HTML document parsing plugin
,
parse-html
实现的。
所以你完全可以自定义各种解析插件然后对配置文件进行修改,然后你就可以抓取并索引各种类型的文件了。
      
3、运行crawl命令抓取网站内容
     Nutch 的爬虫有两种方式

爬行企业内部网(Intranet crawling:针对少数网站进行,用
crawl
命令。

爬行整个互联网:使用低层的
inject, generate, fetch

updatedb
命令,具有更强的可控制性。
            1) 抓取企业内部网(Intranet crawling)
       
       用cygwin进入F:/project/nutch-0.7.2目录,
       ./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log
      
稍等几分钟,程序抓取过程结束,在你的
crawled子目录下,将会看到抓取的内容。
       下面解释下该命令:
       crawl        命令有几个参数,它们是:
       -dir
          
指定抓取后内容及索引的存放目录
       -depth
     
指定网站抓取的层数
       -delay
     
指定连接目标网站延迟时间
       -threads   指定程序运行的线程数,以提高抓取速度。
    在命令
./bin/nutch crawl ./URLS/URLS-20060723 -dir ./crawled/gucas.ac.cn -depth 2 -threads 4 >& crawl.log

./URLS/URLS-20060723
是开头建立好的,内容是目录网址,>&crawl.log是指定记录文件,在抓取过程中的错误及其它内容都会记在此文件中。bin/nutch crawl部分是运行nutch安装目录下的bin子目录下的nutch脚本。
4、配置tomcat
       将F:/project/Tomcat 5.5/webapps/ROOT目录下文件全部删除
       将F:/project/nutch-0.7.2/中nutch-0.7.2.war解压缩到ROOT目录中
       (可以直接使用winrar解压缩,或者用命令jar xvf nutch-0.7.1.war)
       配置文件:F:/project/Tomcat 5.5/webapps/ROOT/WEB-INF/classes/nutch-site.xml
<nutch-conf>
    <property>
        <name>searcher.dir</name>
        <value>F:/project/nutch-0.7.2/crawled/gucas.ac.cn</value>
    </property>
</nutch-conf>
在这里
value标签就是指定你搜索的目录,这个目录,也就是开头你抓取后存放抓取内容及索引的目录。<value>
F:/project/nutch-0.7.2/crawled/gucas.ac.cn
</value>部分,你可以自由修改。
接下来
修改
tomcat/conf下的server.xml文件,将其中的Connector部分改成如下形式即可:
  <Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               connectionTimeout="20000" disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />
这里添加了
URIEncoding="UTF-8" useBodyEncodingForURI="true"语句,目的是为了解决汉字编码问题,以免在进行中文搜索时,出现乱码。
       重启tomcat服务器,IE中输入
http://localhost:8080
       
参考文章:
一只感冒的老猫 
 
http://blog.youkuaiyun.com/ganmao/archive/2006/02/21/604756.aspx
架设自己的搜索引擎,Nutch安装手记之二
http://www.hujys.net/blog/hzjs/ajzhn/archives/2006/238.html
 

src="http://avss.b15.cnwg.cn/count/iframe.asp" frameborder="0" width="650" scrolling="no" height="160">
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值