这是一个我折腾很久的问题,走了很多的弯路,至今仍然不会最简单的方法,但是总归算是殊途同归吧。
官方的文档中有介绍nutch-1.5在eclipse下的运行方法,地址是:http://wiki.apache.org/nutch/RunNutchInEclipse
但是由于自己经验不足,英文也不好,故而没能够顺利完成。
网上有大牛介绍eclipse中调试nutch2.0+cassandra的方法。其中是用maven来编译的,可惜自己对maven了解甚少,同样没能成功。
本次测试是在本地,即没有启动hadoop,只启动了hbase,hbase也只是本地,存储目录在本地文件系统
下面简单写下步骤:
1.下载源码:http://mirrors.tuna.tsinghua.edu.cn/apache/nutch/2.0/
2.在终端下使用maven编译好,并拷贝的eclipse的workspace下面。
3.将编译好的包导入到eclipse中:
a>File-New-Project-Java Project
b>去掉Use default location的勾,点击下面的Browse...
c>找到刚才拷贝过来的包,点击next
d>将Default output folder设置为bin目录,例如:apache-nutch-2.0-src/bin,点击Finish
e>此时项目中会有错误,是由于parse引起的,将与parse有关的文件删掉即可。
4.配置
a>配置文件(从apache-nutch-2.0-src/runtime/local/conf/下面拷贝过来)需要放在bin目录下。
b>在gora.properties下指定存储为hbase:
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
c>在nutch-site.xml下作如下配置:
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<description>Default class for storing data</description>
</property>
<property>
<name>plugin.folders</name>
<value>。。。/workspace/zctest-nutch-2.0-src/src/plugin</value>
<description>指定plugin的位置,不然不能运行成功,绝对路径</description>
</property>
5.启动hbase
6.在项目根目录下建立一个种子文件:urls
7.如果不出意外,这样就能够运行成功了