环境:
(这些工具官网都有,自行下载安装)
nutch 2.2.0
lucene 7.1.0
apache-ant-1.10.1
apache-ivy-2.4.0
apache-tomcat-9.0.1
mysql
jdk-9.0.1_windows-x64_bin
一、eclipse环境下 Nutch+Mysql 二次开发环境
1、通过利用Nutch进行爬虫,将爬出网页的内容存入mysql中
2、修改Nutch2.2.1 源码中的ivy/ivysetings.xml
添加一个源:
<property name="org.restlet"
value="http://maven.restlet.org"
override="false"/>
找到以下部分代码,将没有resolver加入
<chain name="default" dual="true">
<resolver ref="local"/>
<resolver ref="maven2"/>
<resolver ref="apache-snapshot"/>
<resolver ref="sonatype"/>
<resolver ref="restlet"/>
</chain>
经过测试,没有增加这个有些包下载不了,可能和网络有关系。
3.修改ivy/ivy.xml
启用以下两个依赖
<dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />
<dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default"/>
4.进入命令行,并定位到Nutch目录
执行:
ant eclipse -verbose
由于网络带宽问题,整个过程执行了半个小时
执行完成之后如下图所示
在编译的过程中,我出现了以下问题,以及解决方案:
(1)ant Unable to find a javac compiler
java环境没有配置好
Unable to find a javac compiler;
com.sun.tools.javac.Main is not on the classpath.
Perhaps JAVA_HOME does not point to the JDK
org.apache.tools.ant.taskdefs.compilers.CompilerAdapterFactory.getCompiler(CompilerAdapterFactory.java:106)
org.apache.tools.ant.taskdefs.Javac.compile(Javac.java:935)
org.apache.tools.ant.taskdefs.Javac.execute(Javac.java:764)
org.apache.jasper.compiler.Compiler.generateClass(Compiler.java:382)
org.apache