nutch在单机windows下测试环境的配置

本文详细介绍如何在Windows单机环境下配置Nutch进行调试。包括安装JDK、Eclipse及IBM MapReduce Tools插件,设置环境变量,配置Nutch源代码等步骤。适合初学者快速上手。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通常来说nutch应该部署在多台机器上,做并行抓取,那么配置nutch在单机windows下有什么意义呢?就是方便debug。

下面分步骤详述。
1.安装JDK 6,eclipse3.2以上版本
2.为eclise安装IBM mapreduce tools插件
[url]http://www.alphaworks.ibm.com/tech/mapreducetools[/url]
3.安装cygwin,并设置环境变量
4.下载nutch源代码,我使用的是最新的1.0版本
5.在eclipse中创建MapReduce Project工程。将nutch下的src/java下的所有代码复制到工程的src目录下,a并将其依赖的jar导入工程路径。
6.将nutch/conf 下的配置文件复制到classloder可以找到的路径,我是复制在bin下
7.修改org.apache.nutch.crawl.Crawl,在main()里加入一句
conf.set("hadoop.job.ugi", "你的帐号名,你的系统密码");

或者在nutch-site.xml加入

<property>
<name>hadoop.job.ugi</name>
<value>你的帐号名,你的系统密码</value>
<description></description>
</property>

8.运行org.apache.nutch.crawl.Crawl类,命令行参数可以如下:
D:\test-nutch\urls -dir D:\test-nutch -depth 3 -topN 100 -threads 5
,head溢出的话,请调整内存参数

如果运行成功的话,你就可以使用luke来查看索引文件了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值