eclipse下运行nutch-2.0

本文介绍如何在不启动Hadoop的情况下,在本地环境中配置并运行Nutch 2.0与HBase的集成。文章详细记录了从下载源码、使用Maven编译、配置Eclipse项目到最终启动HBase进行测试的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是一个我折腾很久的问题,走了很多的弯路,至今仍然不会最简单的方法,但是总归算是殊途同归吧。


官方的文档中有介绍nutch-1.5在eclipse下的运行方法,地址是:http://wiki.apache.org/nutch/RunNutchInEclipse

但是由于自己经验不足,英文也不好,故而没能够顺利完成。

网上有大牛介绍eclipse中调试nutch2.0+cassandra的方法。其中是用maven来编译的,可惜自己对maven了解甚少,同样没能成功。


本次测试是在本地,即没有启动hadoop,只启动了hbase,hbase也只是本地,存储目录在本地文件系统

下面简单写下步骤:

1.下载源码:http://mirrors.tuna.tsinghua.edu.cn/apache/nutch/2.0/

2.在终端下使用maven编译好,并拷贝的eclipse的workspace下面。

3.将编译好的包导入到eclipse中:

a>File-New-Project-Java Project

b>去掉Use default location的勾,点击下面的Browse...

c>找到刚才拷贝过来的包,点击next

d>将Default output folder设置为bin目录,例如:apache-nutch-2.0-src/bin,点击Finish

e>此时项目中会有错误,是由于parse引起的,将与parse有关的文件删掉即可。

4.配置

a>配置文件(从apache-nutch-2.0-src/runtime/local/conf/下面拷贝过来)需要放在bin目录下。

b>在gora.properties下指定存储为hbase:

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

c>在nutch-site.xml下作如下配置:

    <property>
        <name>storage.data.store.class</name>
        <value>org.apache.gora.hbase.store.HBaseStore</value>
    <description>Default class for storing data</description>
    </property>

    <property>
        <name>plugin.folders</name>
        <value>。。。/workspace/zctest-nutch-2.0-src/src/plugin</value>

        <description>指定plugin的位置,不然不能运行成功,绝对路径</description>
    </property>

5.启动hbase

6.在项目根目录下建立一个种子文件:urls

7.如果不出意外,这样就能够运行成功了



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值