Hadoop 是 Apache Lucene 创始人 Doug Cutting 创建的。最早起源于 Nutch,
它是 Lucene 的子项目。Nutch 的设计目标是构建一个大型的全网搜索引擎,包
括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可
扩展性问题:如何解决数十亿网页的存储和索引问题。
2003 年 Google 发表了一篇论文为该问题提供了可行的解决方案。论文中描
述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他
们在网页爬取和索引过程中产生的超大文件的存储需求。
2004 年 Google 发表论文向全世界介绍了谷歌版的 MapReduce 系统。
同时期,Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE,并从
Nutch 中剥离成为独立项目 HADOOP,到 2008 年 1 月,HADOOP 成为 Apache 顶级
项目,迎来了它的快速发展期。
2006 年 Google 发表了论文是关于 BigTable 的,这促使了后来的 Hbase 的发
展。
因此,Hadoop 及其生态圈的发展离不开 Google 的贡献。

从hadoop1.0到2.0最大的改变,也是hadoop火起来的原因就是,引入了yarn,yarn的引人让hadoop从mapreduce离线计算,有了更多的可能。yarn可以引人spark内存计算,strome流式技术
Hadoop 特性优点
扩容能力(Scalable):Hadoop 是在可用的计算机集群间分配数据并完成计
算任务的,这些集群可用方便的扩展到数以千计的节点中。
成本低(Economical):Hadoop 通过普通廉价的机器组成服务器集群来分发
以及处理数据,以至于成本很低。
高效率(Efficient):通过并发数据,Hadoop 可以在节点之间动态并行的移
动数据,使得速度非常快。
可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自
动地重新部署(redeploy)计算任务。所以 Hadoop 的按位存储和处理数据的能
力值得人们信赖。
Apache Hadoop由Doug Cutting创建,起源于Nutch项目,解决大规模数据存储和索引问题。受到Google的GFS和MapReduce论文启发,发展出HDFS和MapReduce,成为Apache顶级项目。Hadoop引入YARN后支持更多计算框架,如Spark和Storm。其特点包括可扩展性、低成本、高效及可靠性。
3296

被折叠的 条评论
为什么被折叠?



