从零开始搭建nutch搜索引擎

本文详细介绍了如何安装配置Nutch 1.2和Tomcat 6来搭建一个简单的网络爬虫及搜索引擎的过程,包括环境变量设置、URL文件创建、爬虫配置与启动等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 我载nutch1.2并解压:
  2. # wget http://apache.etoak.com//nutch/apache-nutch-1.2-bin.tar.gz .
    # tar zxvf apache-nutch-1.2-bin.tar.gz
  3. 下载tomcat6并解压:
  4. # wget http://apache.etoak.com/tomcat/tomcat-6/v6.0.32/bin/apache-tomcat-6.0.32.tar.gz
    # tar zxvf apache-tomcat-6.0.32.tar.gz
  5. 设置JAVA环境变量
  6. 在~/.bashrc结尾处添加:export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0/jre,重启终端后生效。
  7. 配置nutch
  8. 创建初始url文件,并写入一个(或多个)url # cd nutch-1.2
    # mkdir urls.test
    # echo http://www.sina.com/ > urls.test/iniurls
    修改文件conf/crawl-urlfilter.txt:将MY.DOMAIN.NAME替换为sina.com,或者干脆去掉,只留+^http:// 修改文件conf/nutch-default.xml:将http.agent.name的value写为my nutch agent(或其他任意值)
  9. 开始抓取网络数据
  10. # ./bin/nutch crawl urls.test/iniurls -depth 3 >& crawl.log
    运行完毕后生成文件夹crawl-20110513015802(文件名标识开始爬虫开始时间),若想指定文件夹名字,可在上述命令中加参数 -dir dirname
  11. 配置搜索引擎
  12. 进入apache-tomcat-6.0.32/webapps/ROOT #cd ../apache-tomcat-6.0.32/webapps/ROOT/
    删除所有文件 # rm -rf * 解压nutch-1.2/nutch-1.2.war到上述目录
    # jar xvf nutch-1.2.war
    修改apache-tomcat-6.0.32/webapps/ROOT/WEB-INF/classes/nutch-site.xml,导入已爬取的网络数据的数据库
  13. 测试搜索引擎
  14. 开启tomcat6
    # cd apache-tomcat-6.0.32
    # ./bin/startup.sh
    若以上顺利,在浏览器中输入http://localhost:8080,会见到nutch的搜索界面
  15. 未完待续(修正中文乱码问题)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值