[Nutch]Hadoop单机伪分布式模式的使用(deploy)

本文详细介绍了Nutch在Hadoop单机伪分布式模式下的配置和使用,包括设置抓取链接、执行抓取操作,并通过web管理页面监控任务执行情况,如jobtracker、tasktracker和dfshealth的界面查看。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上一篇博文我们对Nutch进行了hadoop的配置,那么本文就对nutch的deploy模式的使用进行说明。

1. 配置抓取链接

先进入nutch的deply目录:

cd nutch/runtime/deploy

和在local模式一样 ,我们先建立一个urls目录,并将抓取链接放入url.txt文件里面:

mkdir urls
echo http://www.cnbeta.com > urls/url.txt

将链接文件放入hadoop的分布式文件系统上:

hadoop fs -put urls urls

从web界面就可以看到里面的内容:
这里写图片描述

将本地的urls文件删除:

rm -rf urls

2. 执行抓取操作

和在local模式执行同样的命令:

nohup bin/nutch crawl urls -dir data -depth 5 -threads 50 &

如下图:
这里写图片描述

通过查看nohup.out就可以看到相关日志:
这里写图片描述

3. 通过web管理页面查看当前执行状况

3.1 jobtracker页面

从jobtracker页面可以看到当前正在执行的job和已经完成的job。

如下为正在执行的job:
这里写图片描述

已经完成的job如下:
这里写图片描述

等整个任务完成之后,总体界面如下:
这里写图片描述

3.2 tasktracker页面

可以显示task tracker的状态,如下:
这里写图片描述

3.3 dfshealth界面

可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等。
这里写图片描述

通过点击里面的“browser the filesystem”:
这里写图片描述

可以查看hadoop分布式文件系统里面的文件:
这里写图片描述

从里面可以看到segments下面的segment:
这里写图片描述
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值