nutch的抓取流程 以及 手动实践

inject -> generate -> fetch -> parse -> updatedb


第一个流程为把链接地址注入数据库

   其对应的java 类为 org.apache.nutch.crawl.Injector

实践

./bin/nutch inject data3/crawldb urls/


第二  生成segment。Nutch抓取程序需要抓取到很多的页面,那么具体是哪些页面的?当然,在互联网上是通过URL来定位的。 这一步骤主要是对上一步提交的URL集合进行分析,确定抓取任务的详细信息。

org.apache.nutch.crawl.Generator

./bin/nutch generate data3/crawldb/ data3/segments


第三 分析提交的URL集合之后,将页面内容抓取下来,存于segment目录下。

org.apache.nutch.fetcher.Fetcher

./bin/nutch fetch data3/segments/20130529160808/


第四 内容解析器。抓取到的页面文件被提交到这里,实现对页面文件的处理,包括页面文件的分析和处理。

org.apache.nutch.parse.ParseSegment

./bin/nutch parse data3/segments/20130529160808/


第五 更新数据库

org.apache.nutch.crawl.CrawlDb

./bin/nutch updatedb data3/crawldb/ -dir data3/segments/


171010567.jpg

图片来自于 杨尙川的 视频截图

http://yangshangchuan.iteye.com/blog/1837935

其抓取过程的一些解释 参考于 

http://blog.youkuaiyun.com/cdl2008sky/article/details/7041411


本文转自    拖鞋崽      51CTO博客,原文链接:http://blog.51cto.com/1992mrwang/1212737


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值