
Hadoop
文章平均质量分 88
systemuser
这个作者很懒,什么都没留下…
展开
-
Heritrix的使用入门
10.3 扩展和定制Heritrix在前面两节中,向读者介绍了Heritrix的启动、创建任务、抓取网页、组件结构。但是,读者应该也可以明显的看出,如果不用Heritrix抓取和分析网页的行为进行一定的控制,它是无法达到要求的。对Heritrix的行为进行控制,是要建立在对其架构充分了解的基础之上的,因此,本节的内容完全是基于上一节中所讨论的基础。10.3.1 向Heritrix中...原创 2009-07-25 10:38:03 · 467 阅读 · 0 评论 -
Heritrix的架构
10.2 Heritrix的架构在上一节中,详细介绍了Heritrix的使用入门。读者通过上一节的介绍,应该已经能够使用Heritrix来进行简单的网页抓取了。那么,Heritrix的内容究竟是如何工作的呢?它的设计方面有什么突出之处?本节就将介绍Heritrix的几个主要组件,以此让读者了解其主要架构和工作方式。为后续的扩展Heritrix做一些铺垫。10.2.1 抓取任务Cra...原创 2009-07-25 10:42:38 · 137 阅读 · 0 评论 -
Hadoop学习笔记一 简要介绍
这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。 言归正传,先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到Lucene和Nutch。...原创 2009-07-28 21:45:37 · 95 阅读 · 0 评论 -
NDFS心跳检测在window平台异常解决
nutch项目2006年之前集成分布式文件系统 称为NDFS,之后独立出Hadoop子项目更名为HDFS由于自己的系统基于早期nutch版本开发,发现NDFS心跳检测在window平台异常:Cannot run program "df": CreateProcess error=2, ϵͳÕҲ»µ½ָ¶想必是windows平台无此df命令造成,更正DF的构造 publi...原创 2010-09-18 00:58:28 · 442 阅读 · 0 评论