
Nutch
iteye_1029
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
观察nutch crawl的每一步
为了研究怎么解决recrawl的问题,今天仔细观察了一下nutch crawl的每一步具体发生了什么。 ==============准备工作====================== (Windows下需要cygwin) 从SVN check out代码; cd到crawler目录; ==============inject======================...原创 2009-05-07 00:39:11 · 88 阅读 · 0 评论 -
Nutch中MapReduce的分析
作者:马士华 Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Up...原创 2009-05-07 00:44:46 · 93 阅读 · 0 评论