nutch与mysql对接

本文介绍如何从Nutch官网下载并编译Nutch 2.2.1版本,该版本支持与MySQL对接。文章详细说明了使用IDEA进行编译的过程,包括配置文件修改、生成运行文件及部署到Linux服务器的方法。

1、从Nutch官网中下载nutch,要注意的是Nutch分为1版本和2版本,1版本官方提供编译好的代码,2版本官方只提供源码,需要自己编译,与mysql对接要下载nutch-2.2版本(因为nutch-2.3不支持);


如上图所示,点击上面的链接,进去选择2.2版本下载,我这里选择的是nutch-2.2.1;

2、我这里是使用idea IDE进行编译,首先使用idea直接打开代码。因为nutch默认使用的是ant进行编译,使用ivy进行下载jar包。我们先使用idea选择添加build.xml,直接点击eclipse。

3、之后,选择runtime进行构建代码。会得到如下图。至此,可以看到左下方包含的runtime文件夹,里面包含了nutch运行的两种方式,local和deploy。其中deploy方式需要通过大数据的Job方式运行。


4、下面我们要改一点配置文件,在conf的下面找到nutch-site.xml。nutch默认使用nutch-default.xml进行配置nutch。当nutch-site.xml包含了相应配置信息后,nutch会优先选择site里面的配置信息。如下图所示加入以下配置信息。

5、配置完nutch-site.xml后还需配置gora.properties里面的配置信息。


6、配置完后,在idea右侧进行以下步骤clean,然后再runtime。

7、将runtime生成的local下文件的内容拉到linux物理机上,进行部署。

8、在linux下对应文件夹进行nutch crawl (种子路径) -depth 爬取深度 即可进行爬取。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值