Apache Hadoop介绍

Apache Hadoop由Doug Cutting创建,起源于Nutch项目,解决大规模数据存储和索引问题。受到Google的GFS和MapReduce论文启发,发展出HDFS和MapReduce,成为Apache顶级项目。Hadoop引入YARN后支持更多计算框架,如Spark和Storm。其特点包括可扩展性、低成本、高效及可靠性。

Hadoop 是 Apache Lucene 创始人 Doug Cutting 创建的。最早起源于 Nutch,
它是 Lucene 的子项目。Nutch 的设计目标是构建一个大型的全网搜索引擎,包
括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可
扩展性问题:如何解决数十亿网页的存储和索引问题。
2003 年 Google 发表了一篇论文为该问题提供了可行的解决方案。论文中描
述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他
们在网页爬取和索引过程中产生的超大文件的存储需求。
2004 年 Google 发表论文向全世界介绍了谷歌版的 MapReduce 系统。
同时期,Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE,并从
Nutch 中剥离成为独立项目 HADOOP,到 2008 年 1 月,HADOOP 成为 Apache 顶级
项目,迎来了它的快速发展期。
2006 年 Google 发表了论文是关于 BigTable 的,这促使了后来的 Hbase 的发
展。
因此,Hadoop 及其生态圈的发展离不开 Google 的贡献。

 

 

从hadoop1.0到2.0最大的改变,也是hadoop火起来的原因就是,引入了yarn,yarn的引人让hadoop从mapreduce离线计算,有了更多的可能。yarn可以引人spark内存计算,strome流式技术

 

 

Hadoop  特性优点
扩容能力(Scalable):Hadoop 是在可用的计算机集群间分配数据并完成计
算任务的,这些集群可用方便的扩展到数以千计的节点中。
成本低(Economical):Hadoop 通过普通廉价的机器组成服务器集群来分发
以及处理数据,以至于成本很低。
高效率(Efficient):通过并发数据,Hadoop 可以在节点之间动态并行的移
动数据,使得速度非常快。
可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自
动地重新部署(redeploy)计算任务。所以 Hadoop 的按位存储和处理数据的能
力值得人们信赖。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值