windows构建网页版搜索引擎 Nutch+Lucene+Mysql+Tomcat(一)

本文介绍如何在Eclipse环境下搭建Nutch+Mysql的爬虫环境,包括配置依赖、解决常见问题及调整参数等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

环境:
(这些工具官网都有,自行下载安装)
nutch 2.2.0
lucene 7.1.0
apache-ant-1.10.1
apache-ivy-2.4.0
apache-tomcat-9.0.1
mysql
jdk-9.0.1_windows-x64_bin

一、eclipse环境下 Nutch+Mysql 二次开发环境

1、通过利用Nutch进行爬虫,将爬出网页的内容存入mysql中
2、修改Nutch2.2.1 源码中的ivy/ivysetings.xml

添加一个源:

   <property name="org.restlet"
    value="http://maven.restlet.org"
    override="false"/>

找到以下部分代码,将没有resolver加入

   <chain name="default" dual="true">
      <resolver ref="local"/>
      <resolver ref="maven2"/>
      <resolver ref="apache-snapshot"/>
      <resolver ref="sonatype"/>
      <resolver ref="restlet"/>
    </chain>

经过测试,没有增加这个有些包下载不了,可能和网络有关系。

3.修改ivy/ivy.xml

启用以下两个依赖

<dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />

<dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default"/>
4.进入命令行,并定位到Nutch目录

执行:

ant eclipse -verbose

由于网络带宽问题,整个过程执行了半个小时

执行完成之后如下图所示
这里写图片描述
在编译的过程中,我出现了以下问题,以及解决方案:

(1)ant Unable to find a javac compiler

java环境没有配置好

Unable to find a javac compiler;
com.sun.tools.javac.Main is not on the classpath.
Perhaps JAVA_HOME does not point to the JDK
 org.apache.tools.ant.taskdefs.compilers.CompilerAdapterFactory.getCompiler(CompilerAdapterFactory.java:106)
 org.apache.tools.ant.taskdefs.Javac.compile(Javac.java:935)
 org.apache.tools.ant.taskdefs.Javac.execute(Javac.java:764)
 org.apache.jasper.compiler.Compiler.generateClass(Compiler.java:382)
 org.apache
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值