- 博客(3)
- 收藏
- 关注
Nutch源代码解读--3
以上是Hadoop的基本流程,如果需要详细连接可以登入http://hadoop.apache.org阅读更加详细地资料。这里我对其先介绍下简要地。等下结合nutch里如何使用这些实现并行计算地。 Hadoop主要分为2个部分,一个是分布式文件系统,一个是MapReduce的编程模型或者说一个框架。MapReduce相信大家都会了解一点(http://labs.google.c...
2012-04-30 18:49:49
125
Nutch源代码解读--2
Nutch0.9代码详细分析之2 主要分析网页爬取之后的页面处理 前一次主要介绍了Nutch爬取网页的流程,在爬取完网页后返回一个ProtocalOutput对象,对爬行回来的信息进行了封装,包括ProtocalStatus返回的HTTP状态码,Content网页的主体内容等信息信息。在Fetcher中,如果我们继续往下看,会看到nutch根据不同的ProtocalStatus返...
2012-04-30 18:32:08
155
Nutch源代码解读--1
主要分析利用HTTP协议爬取爬取网页) 本身是研究搜索引擎地,对开源的NUTCH很感兴趣。但是网上的代码对于NUTCH的分析都十分有限,我希望能尽我的力量把NUTCH里的代码尽我所能分析给大家。本文主要从一个爬虫系统最底层的爬虫如何爬行一个网页做一个分析。这个是比较底层的,如果之前对NUTCH没有详细使用过或者看过一些代码的。可以先去网上看一些使用NUTCH的流程。再看我这里的...
2012-04-30 17:39:42
178
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人