
nutch
cchen0416
这个作者很懒,什么都没留下…
展开
-
Nutch-0.9源代码:Crawl类整体分析
出处: http://hi.baidu.com/shirdrn/blog/item/b7de0813a865a8d6f7039e18.htmlNutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl....原创 2009-05-26 12:31:16 · 125 阅读 · 0 评论 -
Nutch-0.9源代码:Injector类
出处:http://hi.baidu.com/shirdrn/blog/item/5d24ef2298e3eca24623e887.html在对Nutch抓取工作流程分析中,已经简单地提及到了inject操作,如下所示:inject操作调用的是nutch的核心包之一crawl包中的类org.apache.nutch.crawl.Injector。它执行的结果是:crawldb数据库...原创 2009-05-26 12:41:35 · 159 阅读 · 0 评论 -
Nutch-0.9源代码:NutchConfiguration类
出处: http://hi.baidu.com/shirdrn/blog/item/a4934f116b575018b8127b72.htmlorg.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org...原创 2009-05-26 12:44:05 · 134 阅读 · 0 评论 -
Nutch中MapReduce的分析
出处: http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Genera...原创 2009-05-26 14:08:44 · 157 阅读 · 0 评论